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译 者 的 话 


非 参数 统计 可 以 分 为 两 个 范畴 , 一 个 是 比较 经 典 的 基于 秩 的 , 以 检验 为 主 的 非 
参数 统计 推断 , 而 另 一 部 分 是 近 二 三 十 年 来 发 展 的 非 参 数 回归 、 非 参数 密度 估计 、 
自助 法 以 及 小 波 方法 等 现代 非 参数 统计 方法 .这 两 者 均 不 对 总 体 分 布 做 较为 确定 
假定 , 但 除 此 之 外 , 这 两 部 分 内 容 在 方法 上 和 概念 上 均 没 有 多 少 共同 点 . 这 本 书 就 
是 涉及 后 者 的 现代 非 参 数 统计 的 内 容 . 

这 本 书 之 所 以 吸引 人 , 就 在 于 它 包 括 了 几乎 所 有 的 现代 非 参数 统计 的 内 容 . 这 
种 包罗 万 象 的 书 不 但 国内 没有 , 在 国外 也 很 难 找到 . 这 对 于 读者 实在 是 太 方便 了 . 
这 也 是 原 书 名 为 “ 非 参 数 统计 大 全 ”( All of Nonparametric Statistics) 的 原因 . 为 了 
包含 更 多 的 内 容 , 本 书 省 略 了 许多 证 明细 节 , 这 对 于 多 数 研究 者 来 说 并 不 会 带 来 不 
便 . 那些 想 知道 个 别 数学 细节 的 人 , 可 以 从 本 书 的 参考 文献 中 得 到 满足 , 而 大 多 数 
读者 则 会 满足 于 本 书 的 全 面 性 和 整体 性 . 


吴 喜 之 
2008 年 5 月 于 中 国人 民 大 学 统计 学 院 
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目前 已 经 有 了 许多 涉及 各 种 非 参 数 推断 的 书 , 如 密度 估计 、 非 参数 回归 、 自 助 
法 及 小 波 方 法 等 . 然而 , 很 难 在 一 本 书 中 找到 所 有 这 些 内 容 . 本 教材 的 宗旨 就 是 为 
了 在 一 本 书 中 简单 扼要 地 介绍 非 参 数 推断 的 许多 现代 课题 . 

本 书 以 统计 和 计算 机 科学 的 硕士 或 博士 生 水 平 的 读者 为 对 象 . 也 适用 于 想 在 现 
代 非 参数 方法 方面 自学 速成 的 那些 在 统计 学 、 机 器 学 习 和 数据 挖 气 等 方向 的 研究 
AR. 我 的 目 标 是 让 读者 很 快 熟 悉 许 多 领域 的 基本 概念 ， 而 不 是 纠缠 在 一 个 题目 上 
讨论 大 量 的 细节 . 一 方面 要 覆盖 大 量 的 内 容 , 另 一 方面 要 保持 本 书 的 精炼 . 我 决定 
省 略 许多 证 明 . 读者 可 以 从 本 书 引 用 的 文献 中 找到 进一步 的 细节 ， 当然 , 尽管 本 书 
标题 那么 写 , 我 还 是 必须 在 包含 什么 和 省 略 什么 内 容 方面 作出 选择 . 大 体 上 说 , 我 
决定 略 去 在 一 章 中 无 法 容 下 的 题目 . 例如 , 不 涉及 分 类 或 非 参 数 贝 叶 斯 推断 . 

本 书 源 自我 主要 为 硕士 生 所 开 的 半 学 期 (20 小 时 ) 课程 的 讲义 . 教师 可 能 想 要 
求 博士 生 学 习 更 深入 的 内 容 并 要 求 他 们 证 明 某 些 定理 .我 始终 试图 遵照 我 的 基本 
原则 , 即 绝 不 给 出 一 个 没有 置信 集 的 估计 量 . 

本 书 是 方法 和 理论 的 混合 , 其 内 容 为 一 些 更 加 注重 方法 的 教材 的 补充 . 这 些 教 
材 包 括 Hastie et al. (2001) 和 Ruppert et al. (2003). ` 

在 第 1 章 的 引言 之 后 , 第 2, 3 章 涉及 诸如 非 参数 delta 方法 和 自助 法 之 类 的 经 
验 CDF. 第 4~6 章 材 盖 基本 的 光滑 方法 . 第 7~9 章 有 较 高 等 的 理论 内 容 并 且 更 难 
些 , 第 7 BET 8, 9 章 正 交 函数 法 所 知 要 的 基础 . 第 10 章 概述 了 某 些 略 掉 的 
内 容 . 

我 假定 读者 学 过 像 Casella and Berger (2002) 或 Wasserman (2004) 的 教科 书 
那样 的 数理 统计 课程 . 特别 地 , 假定 读者 熟悉 下 面 的 概念 : 分 布 函数 、 依 概率 收敛 、 
依 分 布 收敛 、 几 乎 处 处 收敛 、 似 然 函数 、 最 大 似 然 、 置 信 区 间 、delta 方法 、 偏 差 、 
均 方 误差 及 贝 叶 斯 估计 量 等 . 第 1 章 将 简单 回顾 这 些 背 景 概念 . 

数据 集 和 代码 能 够 在 下 面 网 址 找到 . 

www.stat.cmu.edu/~larry/all-of-nonpar. 

我 需要 做 些 澄清 . 首先 , 本 书 的 内 容 是 在 “现代 非 参 数 统计 ”的 标题 之 下 , 略 去 
诸如 秩 检验 那样 的 传统 方法 并 不 贬低 它们 的 重要 性 . 其 次 , 我 大 量 利 用 大 样本 方法 . 
这 部 分 地 因为 我 认为 统计 大 体 上 在 大 样本 情况 下 是 最 成 功 和 有 用 的 , 也 部 分 地 因为 
构造 大 样本 非 参数 方法 常常 更 加 容易 . 读者 应 该 意识 到 , 大 样本 方法 在 不 够 谨慎 时 
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自然 会 误导 . 

我 谨 感 谢 下 面 提供 了 反馈 和 建议 的 人 士 : Larry Brown, Ed George, John Laf- 
ferty, Feng Liang, Catherine Loader, Jiayang Sun 及 Rob Tibshirani. 特别 要 感谢 一 些 
提供 了 非常 详细 评论 的 读者 : Taeryon Choi, Nils Hjort, Woncheol Jang, Chris Jones, 
Javier Rojo, David Scott 及 一 个 匿名 读者 . 还 要 感谢 我 的 同事 Chris Genovese, 他 
提出 了 大 量 的 建议 并 且 为 本 书 的 版 式 提供 了 LaTex 宏 . RRT John Kimmel RE, 
他 一 直 对 我 予以 支持 和 帮助 , 并 且 对 本 书 的 另类 标题 不 表 异 议 . 最 后 , 感谢 我 的 夫 
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第 1 章 引 言 


本 章 将 简要 地 描述 将 要 涉及 问题 的 类 型 . 然后 , 定义 某 些 符号 并 回顾 概率 论 和 
统计 推断 的 一 些 基 本 概念 . 


1.1 什么 是 非 参数 推断 


非 参 数 推断 的 基本 思想 是 在 尽 可 能 少 的 假定 时 利用 数据 对 一 个 未 知 量 作出 推 
断 ， 通 常 , 这 意味 着 利用 具有 无 穷 维 的 统计 模型 ， 的确, 对 非 参 数 推断 的 一 个 更 好 
的 名 字 可 能 是 无 穷 维 推断 . 但 很 难 给 出 非 参数 推断 一 个 精确 的 定义 , 而 且 如 果 一 定 
要 给 出 一 个 , 将 会 毫 无 疑问 地 章 到 反对 观点 的 炮 革 . 

为 了 本 书 的 目的 , 将 把 非 参 数 推断 这 个 词组 用 于 由 在 保持 背景 假定 尽 可 能 少 的 
现代 统计 方法 的 一 个 集合 . 具体 地 说 , 将 考虑 下 面 问题 : 

(1) 估计 分 布 函 数 ， 给 定 一 个 ID 样本 X1,…,Xn ~ F, 估计 CDF F(x) = 
P(X <2) (第 2 章 ). 

(2) 估计 泛 函 . 给 定 一 个 ID PAM, Xn ~ F, 估计 一 个 泛 函 TF), 如 均 
值 T(F) = | zdF(z) (第 2, 3 #). 

(3) 密度 估计 . 给 定 一 个 IID 样本 Xi, Xn ~ F, 估计 密度 f(z) = F(x) (第 
4, 6, 8 章 ). 

(4) 非 参数 回归 或 曲线 估计 . 给 定 (Xi, Yi), (Xn Yn), 估计 回归 函数 r(x) = 
E(Y|X = z) (第 4, 5, 8, 9 章 ). 


(5) 正 态 均值 . 给 定 Yi ~ N(0i,07), i = 1,…,n, 估计 9 = (91,…,0n). 这 个 
看 似 简单 的 问题 实际 上 非常 复杂 , 而 且 还 对 大 量 非 参数 推断 提供 了 一 个 统一 的 偏 倚 
(第 7 章 )- 


此 外 , 将 在 第 7 章 讨 论 某 些 统一 的 理论 上 的 原则 . 在 第 10 章 考虑 几 个 不 同性 
质 的 问题 , 如 测量 误差 、 逆 问题 及 检验 . 

最 有 代表 性 的 假定 将 是 : 分 布 函数 下 (或 者 密度 f 或 回归 函数 r) 属于 称 为 统 
计 模型 (statistical model) 的 某 个 大 集合 F. 例如 , 在 估计 密度 f 时 , 可 能 假定 


tes= {9: frrar < 2}, 
它 是 并 不 “ 太 波动 * 的 密度 集合 . 
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12 符号 和 背景 知识 
这 里 给 出 某 些 有 用 符号 和 背景 知识 的 汇总 , 参见 表 1.1. 
表 1.1 某 些 有 用 的 符号 


符号 定义 
zn = o(an) „Jim zn/an =0 
Zn = O(an) 对 大 的 n, |zn/an| 有 界 
an ~ bn An o if, an/bn 一 1 
an X bn 对 大 的 n, an/bn 和 bn/an 有 界 
Xn X 依 分 布 收敛 
Xp BK 依 概 率 分 布 
XnX 几乎 处 处 收敛 
On 参数 9 的 估计 
bias E@n)~@ 
se VV GnG) 
& 估计 的 标准 误差 
MSE EE(6n 一 9)?( 均 方 误差 ) 
更 标准 正 态 随机 变 最 的 CDF 
Za $71(1— a) 


令 alz) 是 z 的 一 个 函数 , 而 是 一 个 累积 分 布 函 数 . WH F 是 绝对 连续 的 ， 
令 f 表示 其 密度 . WR FF 是 离散 的 , 则 令 f 为 其 概率 分 布 函 数 . a 的 均值 为 


a(z)f(z)dz， 连续 情况 ， 
E(a(X)) = | a(z)dF(z) = 
ners pg Lolila), 离散 情况 . 
$ 

& V =E(X 一 E(X))? 表示 一 个 随机 变量 的 方差 . 如 果 X, Xn 是 nn 个 观测 值 ， 
那么 ， [oR rie YaxX), 这 里 A, 是 经 验 分 布 (empirical distribution), 

它 在 每 个 观测 什 =; 都 分 配 了 概率 1/n. 
对 概率 论 的 简单 回顾 . 样本 空间 (sample space)? 是 一 个 实验 的 所 有 可 能 结果 
的 集合 . 2 的 子 集 称 为 事件 (event). 一 个 事件 类 A 如 果 满 足下 面 三 个 条 件 则 称 为 
一 个 o 域 (0-field): (i) Ø € A; (ii) A € 4 意味 着 4e € A; (iii) A1, Az, € 4 意味 
着 a A; € A. 一 个 概率 测度 (probability measure) 是 定义 在 一 个 o 域 4 上 的 函数 ， 
HE: 对 于 所 有 的 A © A, P(A) > 0, P(Q) = 1, 及 如 果 Aj, Ao,---,€ A 是 不 相交 
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的 , 则 
P (5 a) = >》 了 P(4i). 
i=l i=l 
三 元 组 合 (0, A,P) 就 称 为 一 个 概率 空间 (probability space). 一 个 随机 变量 (random 


variable) 是 一 个 映射 X : N2 — R, 对 于 每 个 实数 r, 都 有 {wE 2: X(w) < zj eA 
考虑 一 个 随机 变量 序列 X 和 随机 变量 X. 如 果 当 n 一 co 时 , 极限 


P(X, <2) + P(X <2) (1.1) 

在 所 有 CDF 
F(z) = P(X <2) (1.2) 
连续 的 点 z 成 立 , 那么 称 随机 变量 序列 X 依 分 布 收敛 (converge in distribution) 或 
FII (converge weekly) 到 X, WA Xn ~ X. 如 果 当 n 一 co 时 , 对 于 每 个 e > 0， 
P(|Xn - X| > €) = 0, (1.3) 


那么 称 随机 变量 序列 X, 依 概率 收敛 (converge in probability) 2) X, WA Xn Ey Xe 
如 果 

P( lim |Xn — X|=0) =1, (1.4) 
则 称 随机 变量 序列 Xn JL FARA (converge almost surely) 到 X, 记 为 Xn S X. 
下 面 的 递 推 关系 成 立 : 


Xp 2 XX, XXX. (1.5) 
令 9 为 一 个 连续 函数 . 按照 连续 映射 定理 (continuous mapping theorem), 


Xn > X > g(Xn) > (X), 
Xn = X = g(Xn) 5 g(X), 
Xn 9(Xn) g(X). 


按照 Slutsky 定理 , 如 果 对 于 某 个 常数 c, Xn ~~ X TOA Yn ~ c, WA, Xn+ Yn ~ 
X+cB XnYn ~~ cX. * 
令 X1,…,Xn ~ F 为 ID. HARE (weak law of large numbers) RUA, 如 


Æ E|g(X1)| < 00, 那么 , n= YX) 5 E(g(X1)). 强大 数 定理 (strong law of large 
i=1 


number) Aik, 如 果 Elg(X1)| < co, PA, nS 9X) 3 E(g(X1)). 


i=1 
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如 果 随机 变量 Z 有 密度 4(z) = (2z)-1/2e-” /2, 那么 它 有 标准 正 态 分 布 , 记 为 
Z ~ N(0,1). 其 CDF 记 为 8(z). 其 上 a 分 位 点 记 为 za. 这 样 , WR Z ~ N(0,1), 
则 P(2Z > za) =a. 

WR E(g?(X1)) < co, 中 心 极限 定理 叙述 (central limit theorem), 


VC = n) => N(0,0?), (1.6) 
BH, Yi = 9( Xi), w= E1), Yn =n YOY; Bo? = V0). 一 般 来 说 如 果 


i=l 


(Xn - 4) 
ae” ea N(0,1), 


MA, 写 
Xn = N(u,62). (1.7) 
按照 delta 方法 (delta method), 如 果 9 为 在 u 可 微 的 , 并 且 g'(u) #0, W 
Vi(Xn = u) > N(0, 0°) = Vilg(Xn) — 9(u)] ~ NO, (9'(u))?o?). (1.8) 


类 似 的 结果 在 向 量 情况 也 成 立 . 假定 X 为 一 个 随机 向 量 序列 , 满足 V(X pp) ~ 
NOO, 3), 这 是 具有 0 均值 和 协 方差 矩阵 D 的 一 个 多 元 正 态 分 布 . 令 g 为 可 微 的 ， 
有 梯度 Vy, 满足 V, 40, KEV, WHE pi Vy. 那么， 


Vnlg(Xn) — 9(u)] N (0, (VE Va) - (1.9) 


统计 概念 . & F = {f(z;9) : 9 € O} 为 一 个 满足 适当 正则 条 件 的 参数 模型 . 基 
于 IID 观测 Xi，…,Xn 的 似 然 函 数 (likelihood function) 为 


Cn(b) = [I f(xX:;0), 
i=l 
而 对 数 似 然 函 数 (log-likelihood function) % £, (8) = log L(0). 最 大 似 然 估计 ,或 MLE 
On, 是 使 似 然 函 数 最 大 的 0. 得 分 函数 (score function) 为 s(X;9) = 8log f(X; 0)/30. 
在 适当 的 正则 条 件 下 , 得 分 函数 满足 FEe(s(X; 9)) = [oe 6) f(x; 0)dax = 0. 此 外 ， 


V(bn — 0) ~» N(0,77(8)), 


这 里 72(9) = 1/1(0), 而 


log f(7;0) 
“ae ) 


1(0) = Vo(s(z;0)) = Eo(s*(a;6)) = -Es ( gi 
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Fisher 信息 (Fisher information). LA, 
Gn - 8) 
a ~ N(0,1), 
这 里 & = 1/(n1(@,)). WF n 个 观测 的 Fisher 信息 阵 I, 满足 1,(0) = nI (0); 
此 , 也 记 &? = 1/(In@,)). 
一 个 估计 所 的 偏 倚 为 EO) — 6 而 且 均 方 误差 MSE 为 MSE= E(6 一 0)?. 对 估 
计 Ôn 的 MSE 的 偏 倚 - 方 差分 解 (bias-variance decomposition) 为 


MSE = bias? (ôn) + V (ĝa). (1.10) 


13 置信 集 


非 参数 推断 多 是 为 了 发 现 对 某 感 兴趣 的 量 9 的 估计 n. 例如 , 这 里 的 9 可 能 
是 一 个 均值 , 一 个 密度 或 者 一 个 回归 函数 . 但 是 仍然 想 要 提供 关于 这 些 量 的 置信 集 , 
正如 将 要 解释 的 , 有 不 同形 式 的 置信 集 . 

令 了 为 分 布 函 数 FF 的 一 个 类 , 而 9 为 某 个 感 兴趣 的 量 . 这 样 , 9 可 能 是 本 
身 , 或 者 F, 或 者 是 F 的 均值 等 等 . $ Cn 为 9 可 能 取 值 的 集合 , 它 依赖 于 数据 
Xi Xn. 为 了 强调 概率 的 陈述 依赖 于 背景 中 的 FANE A Pp. 


1.11 定义 - 如 果 
inf Pr(@ €Cn)2>1-a, HAA n 成 立 ， (1.12) 
那么 Cn 为 一 个 有 穷 样本 1 — a 置 信 集 (fnite sample 1 — a confidence set). 如 果 
liminf inf Pr(0 € Cn) > 1— @, (1.13) 


那么 Cn 为 一 个 一 致 浙 近 1 一 a 置 信 集 (uniiorm asymptotic 1 — a confidence set). 
如 果 

| liminfPF(9& Cn) > 1 一 a HAD FES RH, (1.14) 

那么 Cn 为 一 个 逐 点 渐 近 1 — a 置 信 集 (pointwise asymptotic 1— a confidence set). 


如 果 || - || 表示 某 种 范 数 , 而 所 为 f 的 一 个 估计 值 , 那么 , 关于 的 一 个 置信 
FÈ (confidence ball) 为 有 下 面 形式 的 一 个 置信 和 集 : 


Cn ={f EF: If- fall < sn}, (1.15) 


6- Ble 引言 


这 里 s 可 能 依赖 于 数据 . 假定 f 定义 在 集合 X E. 对 于 函数 对 (Cu), WR 


inf Pr(E(z) < f(z) < ulz), MEA ce xX) >1-0, (1.16) 


那么 (4,u) 称 为 一 个 1 一 a 置信 带 (1 — a confidence band) RE fs 4 (confidence 
envelope). 置信 球 和 置信 带 可 能 是 上 面 所 说 的 有 穷 样 本 , 逐 点 渐 近 和 一 致 浙 近 的 . 
当 估 计 一 个 实数 值 的 量 而 不 是 一 个 函数 时 , C 恰好 是 一 个 区 间 , 则 称 C 为 置信 区 
ia. i 
理想 地 , 希望 找到 有 穷 样本 置信 集 . 当 这 是 不 可 能 时 , 则 试图 构造 一 致 渐 近 置 
信 集 . 而 最 后 的 选择 是 求 逐 点 渐 近 置信 集 . 如 果 Cn 为 一 个 一 致 渐 近 置信 集 , 那么 
下 面 的 说 法 为 真 : 对 任何 5 > 0, 存在 一 个 n(ô), 使 得 对 所 有 n > n(5), Cn 的 收敛 
BDH 1-0-6. 对 于 逐 点 渐 近 置信 集 , 可 能 不 存在 一 个 有 穷 的 n(6). 这 时 , 使 得 置 
信和 集 收敛 接近 1 — a 的 样本 量 将 依赖 于 (未 知 的 )f. 
1.17 例 ” 令 XX,…,Xn ~ Bernoulli(p). KF p 的 一 个 逐 点 渐 近 1 一 a 置信 区 


间 为 
Pa t zap ZCA, (1.18) 


这 里 Pa = nt YD X, 根据 Hoefiding 不 等 式 (1.24), 一 个 有 穷 样本 置信 区 间 为 
i=l 
Prot x log È) - (1.19) 
a 
1.20 例 (参数 模型 ) 令 
$={/(2);0): 0€ 0} 


为 有 纯 量 参数 9 的 参数 模型 , 而 人 为 最 大 似 然 估 计 , 它 是 使 得 似 然 函数 
Lal0) = [J F(X) 
i=l 

最 大 的 9 值 . 回顾 在 适当 的 正则 假定 下 ， 

8, ~ N(0, &?), 
这 里 ， > 

& = [m 0a) 
为 被 估计 的 6, 的 标准 误差 , 而 五 (9) 为 Fisher 信息 . 这 样 ， 


8, + Zap È 


1.4 有 用 的 不 等 式 dga 


为 一 个 逐 点 渐 近 置信 区 间 . WR r= g0), 能 够 利用 delta 方法 得 到 一 个 r 的 渐 
近 置 信 区 间 . 7 的 MLE 为 7, = gn) 对 于 r, 被 估计 的 标准 误差 为 金 (各 ) = 
Rn) Cn). 7 的 条 件 置信 区 间 为 


Fn E 2a /2(Fa) = Fa E Za/2(On)I9(On)|- 


这 又 是 一 个 典型 的 逐 点 渐 近 置信 区 间 . 


1.4 有 用 的 不 等 式 


本 书 不 时 需要 用 某 些 不 等 式 . 为 了 查阅 方便 的 目的 , 一 些 不 等 式 在 下 面 列 出 : 
Markov RER. $ X 为 非 负 随 机 变量 , 并 假定 E(X) FE. 对 于 任何 上 > 0, 
p 


P(X >t)< (1.21) 
Chebyshev 不 等 式 . $ u = E(X), WA a = V(X). MA, 
P(X —p| >t) < z (1.22) 


Hoeffding 不 等 式 . 4 Yi,- , Yn 为 独立 观测 , 满足 E(Yi) = 0 Ra < Y; <S bi. 
令 e> 0. 那么 , WHE t > 0, 


n n 
P (È Hx :) <e™ Tle o/s (1.23) 
i= i=l 


A Bernoulli 随机 变量 的 Hoeffding KFA. 令 Xi,---,X, ~ Bernoulli(p). 那 
么 , 对 任何 e> 0， 
P(\Xn —p| > €) < 2e-2ne ， (1.24) 
REX, =n DX. l 
Mill 不 等 式 如 果 Z ~ N(0,1), WA, 对 任何 上 > 0, 


P(2| > t) < 202 240), (1.25) 
这 里 , 是 标准 正 态 密度 . 事实 上 , 对 于 任何 t > 0, 
G = 3) ot) <P(Z > 让 < 3¢0) (1.26) 


P(Z > 日 < sor? (1.27) 
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Berry-Esséen 界 . $ X1,… ,Xn AUD, 具有 有 穷 均值 p = E(X1), 方差 o? =V(X), 
而 且 三 阶 矩 EX? < co. + Zn = Va(Xn — p)/o, W 


sup |P(Zn < 2) = #(2)| < eee (1.28) 

Bernstein 不 等 式 . $ Xi, , Xn 为 独立 零 均值 随机 变量 , WE -M < X; < M, 
1 Os 

P S| 1.29 

(È ) ef 3 (sei)} C9) 


这 里 ,v > V(X). 


Bernstein KER ( 短 形 式 )、 令 Xn, XX。 为 独立 零 均值 随机 变量 , 而 且 对 于 
所 有 mm > 2 及 某 些 常数 M 和 wi 满足 


m — MM™-2y,; 
ElXi™ < ETE, 
那么 ， 
z 1 ? 
P Xil >t | < 2exp4—-= | ——— |] >, (1.30) 
( > ) { 2 (; + m) } 
这 里 ,= 5m 
Cauchy-Schwartz 不 等 式 . 如 果 X AMY AAW, W 


E|XY| < VE(X?)E(Y?). (1.31) 
回顾 一 下 , 如 果 对 于 所 有 z,y 及 每 个 € 0,1], 函数 9 满足 
glaz + (1 — a)y) < ag(x) + (1 — a)g(y), 


则 称 g 为 凸 的 (convex). 如 果 9 为 二 次 可 微 , 那么 只 要 对 所 有 x, g(x) > 0 就 满 
ETOH. BERI, 如 果 9 ERK, 那么 它 在 任何 与 9 接触 一 点 的 线 ( 称 为 切 
线 ) 的 上 方 . 而 如 果 函 数 -9 是 凸 的 , 那么 9 KAMA (concave). 凸 函数 的 例子 有 
g(x) = 2? 及 g(x) = er, MHRAWLA g(x) = -z2 及 g(z) = logz. 

Jensen REX. WE 9 是 凸 的 , 那么 


Eg(X) > g(EX); (1.32) 


如 果 9 AM, 那么 
Eg(X) < g(EX). (1.33) 
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1.5 文献 说 明 


概率 不 等 式 及 其 在 统计 和 模式 识别 中 的 应 用 包括 Devroye et al. (1996) 及 van 
der Vaart and Wellner (1996). 为 了 复习 基本 的 概率 论 和 数理 统计 , 推荐 Casella and 
Berger (2002), van der Vaart (1998) 及 Wasserman (2004). 


1.6 练 习 


.1. 考虑 例 1.17. 证 明 (1.18) 是 逐 点 渐 近 置信 区 间 . 证 明 (1.19) 是 一 致 置信 区 间 . 

2. 计算 机 实验 . 用 模拟 来 比较 (1.18) 和 (1.19) 的 收敛 及 长 度 . 取 p = 0.2, 并 且 用 a = 0.05. 
试 各 种 样本 量 n. 为 使 逐 点 区 间 有 精确 的 收敛 , n 应 该 是 多 大 ? 当 这 个 样本 量 达到 时 , 比较 这 两 
个 区 间 的 长 度 . 

3. $ Xi, Xn ~ N(p,1). $ Cn = Xn E zap2/ Vn. Cn 是 WADA, BANE, 


还 是 一 致 浙 近 置信 集 ? 
4. $ Xi, Xn ~ N(u,07). & On = Knt2a/25n/ Vn, KB S = 了 (Xi 一 Xn)?/(n 一 
1). Cn 是 六 的 有 穷 样本 、 逐 点 渐 近 、 还 是 一 致 源 近 置信 集 ? = 
5 令 Xi Xn ~ seat w= | zdF(z). 4 


Cn = (Xn — 2a/28, Xn + za), 


这 里 , & = S/n, 而 且 
=i- Xn). 
i 

(a) 假定 均值 存在 , 表明 Cn 为 一 个 1 -a 逐 点 渐 近 置信 区 间 . 

(b) 表明 Cn 不 是 一 致 浙 近 置信 区 间 ， 提 示 : A an 一 co 及 en 一 0, 并 令 Gn = (1 一 
En)F + nbn, 这 里 6n 为 在 an 的 一 个 点 概率 . 说 明 ， 以 非常 高 的 概率 , 对 于 大 的 an 和 小 的 en, 

zdGn(z) K, 但 Xn 十 zap KK. 

(c) 假定 P(|Xi| < B) = 1, RB, B 为 已 知 常数 . 利用 Bernstein 不 等 式 (1.29) 构造 p 的 

一 个 有 穷 样本 置信 区 间 . 
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要 考虑 的 第 一 个 问题 是 估计 CDF. 它 本 身 并 不 是 非常 有 趣 的 问题 . 然而 , 它 是 
解决 诸如 估计 统计 泛 函 这 样 重要 问题 的 第 一 步 . 


“2.1 CDF 


从 估计 CDF( 累 积分 布 函数 ) 的 问题 开始 . 令 XXn ~ F, KH F(x) = 
P(X <2) 是 在 实数 范围 上 的 一 个 分 布 函数 . 用 经 验 分 布 函数 来 估计 F 


2.1 定义 “经验 分 布 函数 (empirical distribution function), 为 在 每 个 数据 点 
Xi 都 有 概率 1/n 的 CDF. HAL, 
Ra) = 1 OK <2), (2.2) 
izi 
这 里 ， 
rn-{ 1, X <z, 
0, Sa: 


2.3 例 (神经 数据 , nerve data) Cox and Lewis (1966) 报告 了 沿 着 一 条 神经 纤 
维 的 相继 脉冲 之 间 的 799 个 等 待 时 间 . 图 2.1 Gon T BARA CDF. m 


1.0 


00 0s To 1s 
图 2.1 神经 数据 
每 个 紧 直 线 代表 一 个 数据 点 . 实 线 是 经 验 分 布 函数 . 在 中 间 线 上 下 的 两 条 线形 成 一 个 95% 置信 带 . 


下 面 定理 给 出 了 F(x) 的 某 些 性 质 . 


2.1 CDF . ‘ll: 


2.4 定理 ” 令 Xi1,…,Xn ~ F, #4 所 为 经 验 CDF. 那么 
(1) 在 每 个 > 的 固定 值 ， 


E(B(z)) = F(z) 及 v (F(z)) = 
F(o)( ~ P(e) 
n 


ROLERO 
n 


于 是 , MSE= 一 0, 并 因此 F(z) 号 F(z). 


(2) Glivenko-Cantelli 定理 . 
sup |Fy(z) — F(z)| * 0. 
(3) Dvoretzky-Kiefer-Wolfowitz (DKW) 不 等 式 . 对 任何 e> 0, 


P (sup |P(z) — F,(2)| > 9 2072", (2.5) 


由 DKW 不 等 式 , 能 够 构造 一 个 置信 集 ， 令 2 = log(2/a)/(2n), L(x) = 
max{ F(z) 一 en,0} 及 U(z) = min{ F(x) + €n, 1}. 由 (2.5) 可 得 , 对 任意 F, 


P(Z(z) < F(x) < U(z) 对 所 有 z RX) > 1-a. 


于 是 , (L(z),U(z)) 是 一 个 非 参数 1 -a BHO. 
作为 总 结 : 
2.6 定理 4 


L(x) =max{ F(z) — €n, 0}, 
U(«) =min{F, (x) + en, 1}, 


Em). 
则 对 所 有 的 和 所 有 的 n, 
P(L(z) < F(z) < U(x) 对 所 有 之 成立) >1 一 a. 
2.7 例 ALR en = | log (ae) = 0.048, 图 2.1 的 虚线 给 出 了 一 个 95% 
置信 带 . è ; E 
© 存在 更 紧凑 的 置信 带 , 但 用 DKW 带 是 因为 它 简单 . 


这 里 ， 
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2.2 ”估计 统计 泛 函 
一 个 统计 泛 函 (statistical functional)T(F) 是 下 的 一 个 函数 , 如 均值 oarg， 
方差 o2 = fe — p} dF (z) 及 中 位 数 m= F-1(1/2). 
2.8 定义 9 =T(F) 的 插入 估计 (plug-in estimator) 定 义 为 


6=T(F,). (2.9) 


一 个 形式 为 J a(z)dF(z) 的 泛 函 称 为 线性 泛 函 (linear functional). 回顾 
f atz)dF(z) 在 连续 情况 定义 为 / a(z)f(z)dz, 而 在 离散 情况 定义 为 Y a(x) f(a). 
了 


经 验 ODF Fy (x) 为 离散 的 , 在 每 个 X 有 概率 1/n. 因此 , 如 果 TF) = f a(z)dF(2) 
为 一 个 线性 泛 函 , 则 有 


对 线性 泛 函 T(F) = / alz)dF(z) 的 插入 估计 为 


TÑ) = / a(z)df,(z) = 二 > ax) (2.10) | 


i=1 


有 时 通过 某 些 直接 计算 就 可 以 得 到 TCP) 的 估计 的 标准 误差 Se. 然而 , 在 另外 
一 些 情况 , 如 何 估计 标准 误差 是 不 清楚 的 . 在 后 面 将 讨论 寻找 e 的 方法 . 目前 , 仅 
假定 能 够 发 现 © 在 许多 情况 , 可 以 得 出 


T(F,) ~ N(T(F), 8). (2.11) 


在 这 种 情况 下 , TF) 的 一 个 近似 的 1 — a 置信 区 间 则 为 
T (Fn) + 20/28, (2.12) 
这 里 , za 满足 P(Z > za) = a, 而 Z ~ N(0,1). 将 称 (2.12) 为 基于 正 态 的 区 间 


(normal-based interval). 
213 AGM) n= T(r) = zaFto). 其 插入 估计 为 户 = f zaa) = 


Xn. 标准 误差 为 se = V(X) = 0/ Vn. 如 果 用 3 表示 o 的 一 个 估计 , 那么 估计 的 
标准 误差 为 免 =3/Va. p 的 基于 正 态 的 一 个 置信 区 间 为 Xn + zaad/Vn- 1: 


2.2 ”估计 统计 泛 函 :13 


2.14 例 ( 方 差 ) $o = V(X) = 人 zz2dF(z) 一 [ | zrol, 其 插入 估计 为 


i 2 
= i 2°dF, (2) 一 [ j: raf (a) 
2 
1 1< 
Lh an 
=F Lm -X,)*. 


它 不 同 于 通常 的 无 偏 样 本 方差 


在 实践 中 , 6? 和 52 没什么 大 区 别 . 
2.15 例 ( 偏 度 ) S u 和 o? 表示 一 个 随机 变量 X 的 均值 和 方差. 关于 分 布 缺 
逐 对 称 性 的 一 个 度量 一 一 偏 度 (skewness) 定义 为 


gx fe Here) 
va = 四 
z [fe 一 war] re 


为 了 找到 插入 估计 , MÆR A =n- YX 及 a? = nit SOO — P)? 这 样 ,< 的 
插入 估计 为 a f 


1 be 
[Em R- 
k= = 一 一 -一 x 


a [Je = nafaa) Ea z 


2.16 例 (相关 ) $ Z= (X,Y), TE p =T(F) = E(X — ps)(Y — uy )/(0z0y) 
FORTE X M Y 之 间 的 相关 , 这 里 F(z,y) 是 二 元 分 布 函数 , 能 够 写 T(F) = aT (F), 
Ta(F),T3(F), Ta(F), T5(F)), 这 里 ， 


TX)= J zdF(z), Ta(X) = Í yaF(z), T3(X) = y. aydF (2), 
R= far), T= fare) 


t3 — tit. 
ERR 3 — tite 
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E D(F) TF) HA fn RE F, HER 


P = a(Tı (Ên), To (Pn), Ta( Pa), Ta (Êa), Ts (Ên)), 


得 到 


n 


DG — Tn) - Yn) 


i=1 


p= i 
| La- | (于 


i=l i=l 
称 为 样本 相关 (sample correlation). a 
2.17 例 (分 位 数 ) ” 令 F 为 严格 递增 的 , 有 密度 f. L TF) = Fp) 为 了 分 
位 点 . 对 TP) 的 估计 为 Aro). 必须 多 加 小 心 , 因为 所 , 不 是 可 逆 的 . 为 避免 不 明 
Wi, 定义 所 1(p) = inf{z : 所 (z) > p}. 称 所 1(p) 为 样本 p 分 位 点 (the pth sample 
quantile). 
Glivenko-Cantelli 定理 保证 了 Fn 对 F 的 收敛 . 这 意味 着 On = TF.) 将 会 收 
KEI 0 =T(F). WH, 希望 在 适当 的 条 件 下 , 6, 会 是 渐 近 正 态 的 . 这 是 下 一 个 题目 . 


2.3 影响 函数 


影响 函数 被 用 来 近似 一 个 插入 估计 的 误差 , 其 形式 上 的 定义 如 下 : 
2.18 定义 THF UHH G 的 Gateaux 导数 定义 为 
T((1 — €)F + G) —T(F) 

€ 


Lr(G) = lim (2.19) 

如 果 G = ôr 是 在 z 的 一 个 点 概率 , 那么 记 Ze(z) 三 LF(6z), 并 称 Lp(z) 为 影响 

函数 (influence function). 这 样 ， ` 
T((1— 6)F + eô-) — T(F) 


Lp(@) = lim SS. (2.20) 


经 验 影响 函数 (empirical influence function) 定 义 为 L(x) = Lp, (2). 于 是 


Z(z) = lim Tia sn teh) FUE) (2.21) 


常常 不 写 下 标 F, 记 为 L(z) 而 不 是 Le(c). 
2.228 4 T(F)= ale)dF(z) 为 一 个 线性 泛 函 那么， 
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1. Le(z) = a(z) —T(F) 和 L(x) = a(z) — T(Pa). 
2. 对 任意 G， 
T(G) =T(F) + J Le(z)dG(z). (2.23) 


3. | Lr(x)dF(2) = 
4. 令 72= -fh (z)dF (z). 则 7? = fio) 一 T(P)]2dF(z), 而 且 如 果 7? < oo， 
ValT(F) - T(Fn)] => N(0,7?). (2.24) 


54 
P= 2 P) = + Pe) -T (2.25) 
i=l i=l 


MA, PP r? h B/se 51, RB V=F/Vn A se = y VTR). 
6. 有 J 
VaIT(F) — T(Fn)] ~ N(0,1). (2.26) 


证 明 ”很 容易 根据 影响 函数 的 定义 来 得 到 前 3 个 结果 . 为 了 证 明 第 4 个 结果 ， 
记 
TÈ) =T(F) + | Lra) = TF) + Sra). 


n 
由 中 心 极限 定理 及 J LF(z)dF(z) = 0 的 事实 , 得 到 
valr(F) — T(F,)] ~ N(0,7?), 


这 里 , r? = | 雄 (z)dF(z). 第 5 个 结论 可 由 大 数 定理 得 到 ， 从 第 4 5 个 结论 和 


Slutsky 定理 可 得 最 后 一 个 结论 . 
上 面 理论 告诉 我 们 , 影响 函数 Ze(z) 有 些 像 参 数 估计 中 的 得 分 函数 . 


如 果 f(x; 9) 是 一 个 参数 模型 ,Cn(6) = Tro) 0) 是 似 然 函 数 , 而 最 大 似 然 估计 和 


为 使 Cg) 最 大 的 0 值 .得 分 函数 为 sole) = Alog fxs 0)/39; 它 在 适当 的 正则 条 件 
下 , 满足 Í so(z) f(z;0)ds =0 及 Vn) ~ J (so(z))27(z;g)dz/m 类 似 地 , 对 于 影响 


函数 , 有 / Lr(z)dF(z) =0 及 V(T(B)) ~ J L3(2)AF(2)/n. 
如 果 泛 函 T(F) 不 是 线性 的 , 那么 (2.23) 将 不 能 精确 地 成 立 , 但 是 它 可 能 近似 
地 成 立 . 
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2.27 定理 如 果 人 了 关于 d(F,G) = suplP(z) - G(2)| Æ Hadamard THA, 
那么 
Valr(B,) - T(F)] > N(O,7?), (228) 
这 里 72 二 [irera 此 外 ， 


T(F,) - T(F) 
= ~ NOD, (2.29) 


RE &=F/vn, 而 


把 近似 [T (Ên) — T(F)|/S ~ N(0,1) 称 为 非 参数 delta 方法 . 由 正 态 近似 , 一 
个 大 样本 置信 区 间 为 T(n) + za 这 仅仅 是 逐 点 渐 近 置信 区 间 . 概括 起 来 : 
非 参 数 delta 方法 
T(F) 的 一 个 1 - a 逐 点 渐 近 置信 区 间 为 


T (Fr) + 20/28, (2.31) 


这 里 ， 


2.32 例 (均值 ) 令 9 =T(F) = j zdF(z). 其 插入 估计 为 5 = J adF, (x) = 
Xn. WA, T((1 — 6)F +6.) = (1-60 + ex. FR, L(x) = £ — 0, (2) =2-X, 及 
& = 8? /n, 这 里 9? =n Y(X: — Xn). 0 的 一 个 逐 点 渐 近 非 参数 95% 置信 区 间 
为 Xn + We. a a 

有 时 , 对 于 某 函 数 a(t1,…, tm), 统计 泛 函 有 了 T(P) = a(Ti(F),-++,Tm(F)) 的 形 
式 . 按照 链 规则 , 影响 函数 为 


12) = Zula), 
a a 


TI — 6)F + bz) — Ti(F) 


Li(z) = lim (2.33) 


O Hadamard 可 微 定义 在 附录 中 - 


(2.30) ， 
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2.34 例 (相关 ) $ Z= (X,Y), MAS T(F) = 下 (X 一 Ac) 一 Ar)/(cxoy) 表 
示 相 关 , XB, F(z,y) 是 二 元 分 布 函数 . 回顾 TF) = aT (F), To(F), Ts(F), Ta(F), 
Ts(F)), 这 里 ， 


OO= [sar Tz(X) = /ar T3(X) = J mara 
DO0= | Par @), TAX) = f yare), 


tz — tite 


由 (2.33), 
L(z,y) = zy - 了 (DG +7), 


far y- Tas ydF 
VJ Jea- Jay The fex- fur) 


2.35 例 (分 位 数 ) > F 为 严格 递增 的 , 有 正 密度 f. T(F) = F(p) 为 了 分 位 
点 . 影响 函数 为 ( 见 练 习 10) 


p—t 
= 2<8, 
L(z) = | no 


FO’ Z>0. 


这 里 ， 


了 ( 忘 ) 的 渐 近 方差 为 


2 am 
= = 1 j: L2(z)dF(z) = ws 7 2, (2.36) 
为 估计 这 个 方差 , 需要 估计 密度 f. 后 面 将 看 到 , 自助 法 提供 了 一 个 更 加 简单 的 方差 
的 估计 . [ 
2.4 经 验 概率 分 布 


本 节 讨论 DKW 不 等 式 的 一 个 推广 ， 如 果 愿 意 , 读者 可 以 忽略 这 一 节 .， 利 用 
经 验 CDF 来 估计 真实 的 CDF 是 一 个 更 一 般 思 想 的 特例 . 令 X1,…,Xn~ 卫 为 
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来 自 概率 测度 P 的 一 个 D 的 样本 。 定义 经 验 概率 分 布 (empirical probability 
distribution)P, 为 

X: c A 的 数目 
人 


P,(A) = (2.37) 


希望 能 够 说 P 在 某 种 意义 上 接近 P. 对 于 一 个 固定 的 A, 知道 nP,(A) ~ Binomial 
(n,p), 这 里 p = P(A). 按照 Hoeffding 不 等 式 , 有 


P(|P,(A) — P(A)| > €) < 2e-2ne. (2.38) 
想 把 这 个 推广 到 下 面 形式 的 说 法 , 即 对 某 个 集合 类 A, 
P (sup |P,(A) — P(A)| > ) < 某 个 小 的 数目 . 
AEA 
这 恰好 是 取 A= {4 = (—%0,t] : t € R} 时 , DKW 不 等 式 所 做 的 . 但 是 , DKW 不 等 
式 仅仅 对 一 维 随机 变量 有 用 . 能 够 利用 Vapnik-Chervonenkis(VC) 定理 得 到 更 一 般 


的 不 等 式 . 
令 4 为 一 个 集合 类 . 给 定 一 个 有 穷 的 集合 R= {z1,…,zn}, > 


NA(R)=#{RNA: Ac A} ” (2.39) 


为 当 4 在 4 中 变化 时 , RPK” FSR. 在 NA(R) = 2" 时 , 称 R 是 被 A 
所 粉碎 的 (shattered). 粉碎 系数 (shatter coefficient) 定 义 为 


s(A,n) = max Na(R), (2.40) 


这 里 , 包含 所 有 大 小 为 n 的 有 穷 集 合 . 
2.41 定理 (Vapnik and Chervonenkis, 1971) “对 于 任意 的 P,n $ e>0, 


P (suo |B, (A) — P(A)| > 9 < 8s(4njerne /32. (2.42) 
AEA 


定理 2.41 仅仅 当 粉 碎 系数 不 随 着 n 而 增长 太 快 时 有 用 .这 时 就 需要 VC 维 
度 了 ， 如 果 对 于 所 有 的 n, s(A,n) = 2", 设 VC(A) = œ. 否则 , 定义 VC(A) 为 
s(A,k) = 2* 时 最 大 的 大 . 称 VC(4) 为 4 的 Vapnik-Chervonenkis 维度 . 这 样 ， 
VC 维度 就 是 被 4 所 粉碎 的 最 大 有 穷 集合 F 的 大 小 . 下 面 定理 表明 , 如 果 4 的 VC 
维度 有 穷 , 那么 粉碎 系数 作为 一 个 多 项 式 随 着 n 增长 . 

2.43 定理 ”如 果 4 的 VC 维度 为 有 穷 的 v, 那么 


s(An) Sn” +1. 
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这 时 ， 
P (sw IB(4) — P(A)| > 9 L 8(n? 十 1)erne /32. (2.44) 
€. š 


2.45 例 令 4={(-ooz:zeRl, 则 .4 粉碎 每 个 单 点 集 {r}, 但 是 不 粉 
碎 形 为 {z,y} 的 集合 . 因此 , VCA) = 1. 因为 PF((-o0,2]) = F(x) 为 CDF, 而 且 
B((—00, 2]) = F,(z) 为 经 验 CDF, 得 到 


P (sup |Fa() - F(z)| > 9 < 8(n 十 1)erne /32， 


CR DKW 界 宽 . 这 表明 (2.42) 不 是 最 紧凑 的 可 能 界限 . a 

2.46 例 ” 令 4 为 实 轴 上 所 有 闭 区 间 的 集合 . 那么 , A 粉碎 5 = {x,y}, 但 是 它 
不 能 粉碎 有 三 个 点 的 集合 . 考虑 S= {x,y,z}, 这 里 z < y < z. 无 法 找到 一 个 区 间 
A, 使 得 4 门 5 = {x,y}. 因此 VC(4) = 2. E 

2.47 例 ” 令 4 为 平面 上 所 有 线性 半空 间 (linear half-space). 任何 (不 全 在 一 
条 直线 上 的 ) 三 点 集合 能 够 被 粉碎 . 而 没有 四 点 集合 能 够 被 粉碎 . 例如 , 考虑 形成 莹 
形 的 四 点 . 令 T 为 最 左 端 和 最 右 端的 点 . 这 个 集合 不 能 被 拣 出 , 其 他 结构 也 能 是 不 
可 粉碎 的 . 因此 VC(A) = 3. 一 般 来 说 , 在 Re 上 的 半空 间 的 VC 维度 为 &+ 1， m 

2.48 Bl SA 为 平面 上 边 平行 于 数 轴 的 所 有 矩形. 任何 四 点 集合 都 是 可 粉 
RW. 令 5 为 一 个 五 点 集合 . 总 有 一 点 不 是 在 最 左边 、 最 右边 、 最 上 边 或 最 下 边 . 
令 工 为 5 中 除了 该 点 之 外 的 所 有 点 . WA T 不 能 被 拣 出 . 因此 有 VC(A)=4. m 


2.5 文献 说 明 


可 以 在 下 面 文献 中 找到 关于 统计 泛 函 的 细节 : Serfling (1980), Davison and 
Hinkley (1997), Shao and Tu (1995), Fernholz (1983) 及 van der Vaart (1998). 而 
Devroye et al (1996), van der Vaart (1998) 及 van der Vaart and Wellner (1996) 讨 
论 了 Vapnik-Chervonenkis 定理 . 
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这 里 是 关于 定理 2.27 的 一 些 细节 . 令 3 表示 所 有 分 布 函数 , 并 令 D RHF 
生成 的 线性 空间 . 记 T((1-— e)F + eG) = T(F + D), 这 里 , D=G-F eD. A 
Lp(D) 表示 的 Gatedux 导数 定义 为 


‘im [LE cai -T(F) 


lim Lr(D)| +0. 
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这 样 T( 已 +eD) = eLp(D) +o(e, 而 且 当 e 一 0 时 , 误差 项 o(e) MF 0. Hadamard 
可 微 性 要 求 该 误差 项 在 紧 集 上 一 致 地 小 . 给 D 加 上 度量 d. 如 果 在 上 存在 一 个 
线性 泛 函 Lr, 使 得 对 于 任何 es 一 0 及 {D, Di, Dz,…} CD, 使 得 d(Dn,D) 一 0 及 
F+enDn EF, A 

Tim, T(F + = PEJ 


那么 称 , 在 F 处 , T X Hadamard FJ hY (Hadamard differentiable). 


一 Ze =0, 


27 #& J 


1. 补 上 定理 2.22 的 证 明细 节 . 

2. 证 明定 理 2.4 F 

3. 计算 机 实验 . 从 N(0,1) 分 布 产生 100 个 观测 值 . 计算 CDF F 的 一 个 95% 置 信 带 . 重 
复 这 个 过 程 1000 次 , 看 置信 带 包含 真实 的 分 布 函数 有 多 么 频繁 .用 Cauchy 分 布 重 复 这 个 实验 . 

4. 令 Xie Xn ~ FHS Palo) 为 经 验 分 布 函数 . 对 于 一 个 固定 的 z, 找到 所 (z) 的 
极限 分 布 . 

5. 假定 对 于 某 常 数 0 < C < co， 

IT(F) ~ T(G)| < CIIF - Glle, (2.49) 
这 里 , IIF — Glloo = sup|F(z) - G(a)|. 证 明 T(n) “3 TF). BE |X| < M < co. RH, 
T(F) = f zdF(z) 满足 (2.49). 

6. $ x 和 ?为 两 个 不 同 的 点 . R Cov(n (2), Fa (2)). 

7. 令 X1,-++,Xn ~ Bernoulli(p), 并 令 Y1,- +, Ym ~ Bernoulli(g). R p 的 插入 估计 和 估 
计 的 标准 误差 . 找到 p 的 一 个 近似 的 90% 置信 区 间 . 求 p- 4 的 插入 估计 和 估计 的 标准 误差 ， 
找到 p — q 的 一 个 近似 的 90% 置 信 区 间 . 

8. 令 Xi, Xn ~ FHS Ê ABRAM. 令 a <b 为 固定 数目 , 并 定义 9 = T(F) = 
F(b) — F(a). & 6 = T(Fa) = Fu(b) 一 所 (a). 求 影响 函数 . 找到 O 的 估计 的 标准 误差 . R 0 的 
一 个 近似 的 1 一 a 置信 区 间 的 表示 式 . 

9. 验证 例 2.34 的 影响 函数 的 公式 . 

10. 验证 例 2.35 的 影响 函数 的 公式 . 提示 : + Fely) = (1 一 cjF(y) + cd2(y), 这 里 ba 为 
在 z 的 单 点 概率 , 即 当 2 < a, bz(y) = 0, HS y >a 时 ,bz(y) = 1. h T(F) 的 定义 ,有 
p=F.(T(Fe)). 现在 关于 e RMD, HH € = 0 处 计算 导数 

11. 在 本 书 的 网 站 上 有 斐济 附近 的 地 震 强度 的 数据 .估计 CDF F(x). 计算 并 点 出 F 的 
95% BAe. 找到 F(4.9) — F(4.3) 的 近似 95% 置 信 区 间 . 

12. 从 本 书 的 网 站 得 到 老 忠实 温泉 (old faithful geyser) 的 喷发 时 间 和 等 待 (间隔 ) 时 间 的 
数据 . 估计 平均 等 待 时 间 的 均值 及 该 估计 的 标准 误差 . 还 求 出 对 平均 等 待 时 间 的 90% 置 信 区 间 . 
再 估计 等 待 时 间 的 中 位 数 . 下 一 章 , 将 看 到 如 何 得 到 中 位 数 的 标准 误差 - 


2.7 练 习 "21. 


13. 在 1975 Æ, 进行 了 关于 云 的 催化 ( 播 云 ) 是 否 产 生 降水 的 实验 . 26 REBUT BUR, 
而 26 块 没有 . 哪 一 块 是 否 播 云 是 随机 决定 的 . 由 下 面 网 站 得 到 数据 : 
http://lib.stat.cmu.edu/DASL/Stories/CloudSeeding.html. 

"$ 0=T(Fi)—T(Fo) 为 两 组 降水 量 的 中 位 数 的 差 . 估计 9. 估计 该 估计 的 标准 误差 , 产生 一 个 
95% BMAX IA). 为 估计 标准 误差 , 需要 利用 公式 (2.36). 这 个 公式 需要 密度 f, 因此 必须 插入 f 
的 一 个 估计 . 将 如 何 做 ? 要 有 创造 性 . 

14. $ A 为 二 维 球 , HIF a,b,c, MR A = {(z,y) : (Zz 一 a)? + (y — b)? < ê}, MW 
AEA. RAHI VC 维度 . 3 

15. 经验 CDF 能 够 被 看 成 为 一 个 非 参 数 最 大 似 然 估 计 . 例如 , 考虑 在 (0,1) 上 的 数据 
X1,…， Xn. 把 该 区 间 分 成 宽度 为 A 的 箱 , 并 求 出 所 有 在 箱 上 为 常数 密度 的 分 布 的 MLE. 表 
明 , 结果 的 CDF 在 A 一 0 时 收敛 到 经 验 CDF. 


第 3 章 自助 法 和 水 手 刀 法 
自助 法 和 水 手 刀 法 为 计算 标准 误差 和 置信 区 间 的 非 参数 方法 ， 水 手 刀 法 耗费 
较 少 计算 机 资源 , 但 自助 法 有 某 些 统计 优势 
3.1 水 手 刀 法 


由 Quenouille (1949) 提出 的 水 手 刀 法 是 用 来 对 估计 的 偏 倚 和 方差 进行 近似 的 
一 个 简单 方法 . 令 Th = TX, Xn) 为 某 个 量 9 的 一 个 估计 , 并 令 dias(T,) = 
E(Tn) 一 9 表示 这 个 偏 倚 . 令 Tn 表示 去 掉 第 i 个 观测 值 之 后 的 该 统计 量 . AFT 
偏 倚 估 计 (jackknife bias estimate) 定 义 为 


back = (n — DT — Ta), (3.1) 
BRIE, Ty = Z Too, BIETARA Taa = Ta be 
为 什么 这 样 定义 bsx E? 对 于 许多 统计 量 , 能 够 表明 , 对 于 某 些 AI b, 


bias(T,) = 2 + 5 +0 (3) ; (3.2) 


例如 , 令 0? = V(X), 并 令 02 =n Y(X; — FY. 则 EE(62) = (n — 1)0?/n, 使 得 


bias(G2) = —o?/n. 这 样 , (3.2) RX, 并 且 a=-o?, Rb=0. 
当 (3.2) 成 立时 , 有 


biaso) = 25 += +0(5), (33) 
然后 得 到 bias(T，) 也 满足 (3.3). 因此 ， 
E(bjack) = (n — 1)[E(bias(T,)) — E(bias(Tn))] 
ee da 
$4 0(3) 
=bias(Tn) + O (去 ): 


3.1 水 手 刀 法 “23 


它 表 明 bjao 估计 偏 倚 相差 的 阶 数 为 O(n-?). 简单 计算 表明 ， 
A b 1 uk 
vias) = apa +O (32) =0 (a2): 
此 , Tjaci 的 偏 倚 在 阶 数 上 小 于 Tn 的 偏 倚 . Ta 还 能 够 写成 


1 
Teac = 元 2 i 


这 里 


Ñ =nT, —(n—- 1)T4) 
称 为 伪 值 (pseudo-value). 
V(Tn) 的 水 手 刀 估计 为 
(3.4) 
这 里 ， 


f= #1 


是 伪 值 的 样本 方差 . 在 关于 T 的 适当 条 件 下 , 能 够 显示 ,wisek 为 VIn) 的 相合 估 
计 . 例如 , 如 果 T 为 样本 均值 的 一 个 光滑 函数 , 那么 相合 性 成 立 . 
3.5 定理 4 p = E(Xi) WH o? = V(X1) < co, 并 假定 Tr = g(Kn), 这 
E, 9 有 一 个 连续 的 , 在 u 非 零 的 导数 . 那么 [Th —-g(u)\/on > N(0,1), 这 里 of = 
nlfg'(p)]?o?. 水 手 刀 是 相合 的 , 即 
Tx Etir (3.6) 
3.7 定理 (Efron, 1982) “如果 T(F) =F- (p) 为 p MEH, 那么 水 手 刀 方差 估 
计 是 不 相合 的 . 对 于 中 位 数 (p = 1/2), 有 viack/02 > (x3/2)?, 这 里 o2 为 样本 中 位 


数 的 渐 近 方差. 
3.8 例 4 Tn = Xn. HR, D = Xi. 因此 , Tack = Ta, b = 0 B tjack = S2/n, 
这 里 ，52 为 样本 方差 . a 


在 水 手 刀 和 影响 函数 之 间 有 一 个 联系 . 回顾 影响 函数 为 
Lp(a) = lim MGW dF td, (3.9) 


假定 , 为 了 近似 Lp(Xi), B F = fn Me =-1/(n—-1). 这 产生 了 下 面 的 近似 ; 


aat- OF, + 62.) — T (Ên) 


Lr(Xi) 


= (nD — Ty)= &, 


-24- 第 3 章 自助 法 和 水 手 刀 法 


得 到 
i< 4 
人 和 “hack = Tn — 1) (= @ ni) j 


换言之 , 水 手 刀 是 非 参数 delta 方法 的 一 种 渐 近 形式 . 
3.10 例 考虑 神经 数据 的 偏 度 的 估计 TF) = |C -sdFz)/os. 点 估计 为 
T (Fa) = 1.76. 标准 误差 的 水 手 刀 估 计 为 0.17. 关于 T(F) 的 一 个 近似 的 95% 置 信 
区 间 为 1.76 土 2(0.17) = (1.42, 2.10). 它 排除 了 0, 说 明 数 据 不 是 正 态 的 . 还 能 利用 影 
响 函 数 计算 标准 误差 . 对 于 这 个 泛 函 , 有 ( 见 练习 1) 


Lp(a) = < -rm {143}, 


那么 ， 
= LPa 
=> z = 0.18 
令 人 放心 地 得 到 了 几乎 同样 的 答案 . n 
32 A Hj 法 


自助 法 (bootstrap) 是 估计 一 个 统计 量 也, = 9(X1,---, Xn) 的 方差 和 分 布 的 一 
个 方法 . 还 能 利用 自助 法 来 构造 置信 区 间 . 
令 Vp(Tn) 表示 Tn 的 方差 . 加 了 下 标 F 是 为 了 强调 方差 是 F 的 一 个 函数 . 如 


果 知 道 至 少 在 理论 上 则 可 以 计算 方差 . 例如 , RT, =n 》 Xi, 那么 


i=l 


o2 J z2dF(z) 一 [ j: zar(a)]| Í 


Vr(Tn) = i 4 


它 显然 是 F 的 一 个 函数 . 

基于 Va, (Ta), 用 自助 法 来 估计 Ve(T,). 换 句 话说 , 利用 方差 的 插入 估计 . 因为 
Va, (Tn) 可 能 不 易 计 算 , 用 模拟 估计 来 近似 它 , 记 为 vpoo. 具体 地 说 , 按照 下 面 步骤 
KHT: 


. 32 自助 法 -25+ 


自助 法 方差 估计 


(1) 抽样 : XY,…，X* ~ 后,. 

(2) 计算 Tz = 9(XF,--- Xp). 

(3) 重复 步骤 1 和 2 BÈ, BAT, Ths 
(4) 


B B 2 
$ š 1 a 
maz BE (tee FEM) - (ea) 


根据 大 数 定理 , 在 B -oo 时 , voot 28 Va (Tn). Tr 的 标准 误差 的 估计 为 
roo. = Vioo. 下面 的 示意 图 描述 了 自助 法 的 思想 : 


实际 世界 :下 一 Xi, Xn > Ta = G(X, Xn); 
自助 法 世界 。 Fy > XY,…,X% > Ti = (Xi XA) 


O/A) O(1/VB) 
Vr(Tn) R Va (Ta) > voot- 
如 何 从 Fn 进行 模拟 呢 ? 因为 En 给 每 个 数据 点 以 概率 1/n. 从 Fn 随机 抽取 n 个 
点 和 可 放 回 地 从 原始 数据 抽取 样本 量 为 n 的 一 个 样本 是 同样 的 . 因此 步骤 1 可 以 
换 为 
1. 可 放 回 地 从 Xi Xn 抽取 XT XT. 
对 中 位 数 的 自助 法 
| Given data X=(X(1),..., X(@m)): 


T = median(X) 
Tboot= vector of length B 
for(i in 1:N){ 


Xstar = sample of size n from X (with replacement) 
Tboot [i] = median(Xstar) 
中 


se = sqrt(variance(Tboot)) 


图 3.1 对 中 位 数 使 用 自助 法 的 伪 代码 
3.12 例 图 3.1 表示 了 利用 自助 法 估计 中 位 数 的 标准 误差 的 伪 代 码 . C] 
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自助 法 能 够 用 来 对 统计 量 T 的 CDF 作 近 似 . 令 Gn(t) =P(Tn < t) X Ta 的 
CDF. 对 Gn 的 自助 法 近似 为 


B 
B= FUT <t) (3.13) 
b=1 


3.3 参数 自助 法 


至 今 已 经 对 F 做 了 非 参数 估计 . 还 有 参数 自助 法 (parametric bootstrap). 如 
果 Fo 依赖 于 参数 9, 而 且 8 是 9 的 一 个 估计 , 那么 , 简单 地 从 Fo 抽样 , 而 不 是 从 
Fn 抽样 . 这 和 delta 方法 一 样 精确 , 但 要 简单 得 多 . 

3.14 例 “” 当 应 用 于 神经 数据 时 , 基于 B = 1000 次 重复 的 自助 法 产生 了 偏 度 
估计 的 标准 误差 为 0.16, 它 几 乎 和 水 手 刀 法 一 样 的 . m 


34 自助 法 置信 区 间 


有 若干 种 方式 构造 自助 法 置信 区 间 . 它们 在 计算 上 和 精确 度 上 难 易 都 不 同 . 
正 态 区 间 . 最 简单 的 是 正 态 区 间 


Th + za/28eboot, 


XH, voot 是 标准 误差 的 自助 法 估计 . 除非 Tn 的 分 布 接近 正 态 , 该 区 间 并 不 精确 . 
枢 轴 区 间 . 令 0 = TF) RO, = 了 (所 ), 并 定义 枢 轴 (pivot)P = 9, -0. 令 
H(r) 表示 枢 轴 的 CDF: 


H(r) = Pr(Rn < r). 
令 0; = (a,b), 这 里 ， 
a=- 及 b= -aM (S), 
然后 得 到 


P(a <0 < b)=P@n -b < Rn <0, — a) 
=H (n — a) — H (n — b) 


-u (i (1-9) -a (a 的) 


a 
二 


2 3=1-% 


3.4 自助 法 置信 区 间 A -27> 


因此 , Cz 为 9 的 一 个 精确 的 1 一 a 置信 区 间 . 不 幸 的 是 , a Alb 依赖 于 未 知 的 分 布 
H, 但 是 能 够 形成 H 的 一 个 自助 法 估计 : 


B 
A) = BUR, 
b=1 
XH, Rt, = 0", - Oy. & rh BA (Ria. Rip) 的 样本 6 分 位 数 , 并 令 05 表示 


Oras Or p) 的 样本 8 分 位 数 . 注意 , 73 = 63 — Oy. 这 样 , 一 个 近似 的 1 — a 置信 
区 间 为 Cn = (人 及, 这 里 ， 


a=6, - A ( = 3) =F, -ria = 20m — OF was 
6=6, HO (5) = Gy r= Ön — 85. 


概括 起 来 ， 
1 一 a 自助 法 枢 轴 置信 区 间 (bootstrap pivotal confidence interval) 为 


n = (2 oy: Da- Fiane) - (8.15) 
RENAE AE UD. 
下 面 的 定理 可 从 定理 3.21 得 到 . 
3.16 定理 ”如果 T(F) 为 Hadamard WAH, 而 且 Cy 由 (3.15) 给 出 , 那么 ， 
Pp(T(F) € Cn) > 1-a. 
学 生化 枢 轴 区 间 . 有 一 种 具有 某 些 优点 的 不 同 的 枢 轴 区 间 . 令 


gaa, 
Seboot 
及 
Tas- Tn 
Zh “= ， 


这 里 , S 为 T;,( 而 不 是 T) 的 标准 误差 的 一 个 估计 . 类 似 于 枢 轴 区 间 的 思想 , 自助 
法 样本 分 位 数 有 ,1,…, Zp 应 该 近似 Zn 分 布 的 真实 分 位 数 . 令 zi 表示 Zt, 
Zi p 的 样本 a 分 位 数 , 那么 , P(Zn < 2%) sa: > 


Cn = (Tn — zi ayot, Ta — /oebo0t) ， 
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则 
P(0.€ On) =P (Tn — zia y2ooot < 0 < Ta — 24 2Sroct) 


=P (en < ot < tan) 
=P (zo < Zn < at apa) 
w1l-a. 
这 个 区 间 比 至 今 讨论 的 ( 见 3.5 节 ) 所 有 区 间 有 较 高 的 精确 度 , 但 是 有 一 个 问 
题 : 需要 对 每 个 自助 法 样本 计算 ef. 这 可 能 需要 在 每 个 自助 法 过 程 中 实施 二 次 自 
助 法 . 
1 一 a 自助 法 学 生化 枢 轴 区 间 (bootstrap studentized pivotal interval) 为 


(Tn ~ boo Ta — 23,28bo01) » 


RE, z Zia Zhe 的 有 分 位 数 , 而 且 


« _ Ine 


nb = EH 


分 位 数 区 间 . 自助 法 分 位 数 区 间 (bootstrap percentile interval) 定义 为 
Cn = (Tinara: Tea-a/2») 
也 就 是 说 , 仅 利用 自助 法 样本 的 a/2 和 1 — a/2 分 位 数 . 下 面 讨论 关于 这 个 区 间 
的 合理 性 . 假定 存在 一 个 单调 变换 U = m(T), 使 得 U ~ N, °), 这 里 $ = m0). 
并 不 假定 知道 这 个 变换 , 而 仅仅 知道 其 存在 . 令 UZ = m( 字 ). 注意 , 由 于 单调 变换 
保持 分 位 数 不 变 , Uipojz) = m(Tigayz)): 因为 U ~ N(dc), U 的 o/2 分 位 数 为 
$- zape. 因此 ， Ulpa/2) = $ — 2a/20 ~ U — zay26, 而 Utsa-a/2)) © U + zo/2c. 这 样 ， 


P (Tajo < 8 < Thu-a/2)) =P (mMTha2) sm(os<m(73a-oj)) 
=P (Ciara bs Usa-a/y) 
RP (U — czaj2 < $ < U + czay2) 
=P (-zo < z- < zaa) 
=l-a. 
奇特 的 是 , 绝对 不 需要 知道 m. 不 幸 的 是 , 一 个 精确 的 正 态 化 变换 很 少 存在 , 但 可 能 
存在 近似 的 正 态 变换 . 这 导致 了 调整 的 分 位 数 方法 (adjusted percentile method) 的 


3.5 某 些 理论 - 29 . 


发 展 ; 它 是 BC。( 偏 倚 矫 正 及 加 速 的 (bias-corrected and accelerated)) 区 间 中 最 流行 
的 . 将 不 在 这 里 考虑 这 些 区 间 . 
3.17 Bl ”下面 是 为 估计 神经 数据 的 偏 度 的 各 种 置信 区 间 : 


方 法 95% 区 间 
E # (1.44,2.09) 
分 位 数 (1.42,2.03) 
枢 轴 (1.48,2.11) 
学 生化 (1.45,2.28) 


关于 学 生化 区 间 需 要 某 些 解释 . 对 于 每 次 自助 法 重复 , 计算 O°, 而 且 还 需要 0 
的 标准 误差 Se. 能 够 在 自助 法 中 再 施行 自助 法 ( 称 为 双 自助 法 (double bootstrap)). 
但 这 耗费 计算 机 资源 .作为 替代 , 利用 在 例 3.10 中 描述 的 应 用 到 自助 法 的 非 参 数 
delta 方法 来 计算 Ke". n 


3.5 某 些 理论 


在 某 些 条 件 下 ，G; 为 Gn(t) = P(n < t) 的 一 个 相合 估计 . 为 精确 起 见 , 令 
Pa () 表示 源 于 Fn 的 概率 , 而 把 原始 数据 X1,.…, Xn 看 成 是 固定 的 . 假定 Th = 


Tn) 为 Ên MER. WA, 
Gx) = Pa, IT(Ê:) <1 = Pp, (VAIT ÊD -TE <u), (818) 


XE, u= ynt- T(F)). 自助 法 的 相合 性 可 以 用 下 面 定理 表述 . 
3.19 定理 ”假定 E(X?) < 00. 4 Tr =9(Xn), XE g HE w= EM) 连续 可 
微 的 , 并 且 g'(u) #0. 那么 ， 


sup|Pp, (var Fs) - TÊ.) < u) -Pe (Val (Fs) - TÊ.) <u)| “50. (8.20) 


3.212 BÈ T(F) 为 关于 d(F,G) = sup|F(z) — G(a)|Hadamard 可 微 的 ， 
而 且 0< / L2(x)dF (2) < oo, B 


sup |Pp, (VAIT (Fs) -TIE < u) -Pr (VAIT Ê) -TP < u)| 0. (8.22) 


认真 观察 定理 3.19 和 3.21. 就 是 由 于 这 一 类 结果 , 自助 法 显得 有 用 . 具体 地 ， 
自助 法 置信 区 间 的 有 效 性 依赖 于 这 些 定理 . 可 参见 定理 3.16. 有 一 种 把 自助 法 看 成 
是 所 有 问题 的 万 能 药 的 倾向 . 但 是 自助 法 需要 正则 条 件 来 产生 合理 的 结果 , 不 应 该 
HAMA. 
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还 能 够 表明 , 在 关于 T 的 某 些 条 件 下 ， 自助 法 方差 估计 是 相合 的 . 


一 般 来 说 ， 


自助 法 相合 性 的 条 件 要 弱 于 水 手 刀 法 . 例如 , 中 位 数 方差 的 自助 法 估计 是 相合 的 ， 


但 中 位 数 方 差 的 水 手 刀 估计 就 不 是 相合 的 (定理 3.7). 


比较 不 同 置 信 区 间 方 法 的 精确 性 . 考虑 一 个 1 - a 单 边 置信 区 间 [所 ,co 
Pl < < 所) = a, 但 通常 这 仅仅 近似 地 成 立 . 如 果 P(9 < Ba) = =a+O(n-/?), eae. 
区 间 为 一 阶 精确 (first-order accurate). 如 果 P(O < ĝa) = a + O(n), 那么 说 该 


at Be 


区 间 二 阶 精确 (second-order accurate). 下 面 是 比较 : 


). 希望 


方 法 精确 性 
ESEM 一 阶 精确 
基本 枢 轴 区 间 f 一 阶 精 确 
分 位 数 区 间 一 阶 精确 
学 生化 枢 轴 区 间 二 阶 精确 
调整 的 分 位 数 区 间 二 阶 精确 


现在 解释 为 什么 学 生化 区 间 会 更 精确 . 更 多 细节 请 参看 Davison and Hinkley 
(1997) 及 Hall (1992a). 令 Zn = Vn(Tn — 0)/o 为 一 个 标准 化 的 量 , 它 收 敛 于 标准 
正 态 分 布 . 这 样 Pe(Zn < z) 一 O(2). 事实 上 , 对 于 如 在 偏 度 中 涉及 的 某 多 项 式 a, 


Pr(Zn < 2) = 8(z) 十 Feats) ae) +0 (2) i 
而 相应 于 自助 法 的 形式 满足 
Palza <2) = #(2) + âle + Op (2), 
这 里 G(z) — a(z) = Op(n-"/?). 相 减 后 得 到 
Pr(Zn < 2) —Pa(Ze, < 2) = OP (3) ; 
现在 假定 考虑 非 学 生化 量 V, = Vn(Tn — 9)/c. BA, 对 某 多 项 式 b, 


Pr(Vn < z)=PF (= Fe z) 
=#(2)+ EE) +o (E). 
对 于 自助 法 , 有 


Pe(V: < 2)=Pp ($< a 


=) t 


|- 
a 
w 
HA 
DIR 
Rls) 
d 
O 
` 
Se 
NS 


(3.23) 


(3.24) 


(3.25) 
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BE G=0+ Op(n-/?). 相 减 后 得 到 
Pr(Va < 2) -Pp(Vi < 2) = Op ( 
它 不 如 (3.25) 精确 . 


=z) : (3.26) 


3.6 文献 说 明 


水 手 刀 法 是 由 Quenouille (1949) 和 Tukey (1958) 发 明 的 ， 自 助 法 是 由 Efron 
(1979) 发 明 的 . 关于 这 个 题目 的 书包 括 : Efron and Tibshirani (1993), Davison and 
Hinkley (1997), Hall (1992a), 及 Shao and Tu (1995). 另外 , 看 van der Vaart and 
Wellner (1996) 的 3.6 节 . 


3.7 Wo X% 


Shao and Tu (1995) 的 书 给 出 了 水 手 刀 和 自助 法 相合 性 证 明 的 技术 上 的 一 个 
解释 . 根据 他 们 书 中 的 3.1 节 , 对 于 Th = Xn =n 》 Xi 的 情况 , 看 两 种 表明 自 


i=1" 


助 法 相合 性 的 方式 . 令 X1,…, Xn ~ F, 并 令 Th = Vn(Xn 一 用 这 里 , p = E(X1). 
令 Hn(t) = Pr(Tn < t), 并 令 An(t) = Pp (Ti < t) X Hn 的 自助 法 估计 , 这 里 ， 
T+ = VAK- Xn) 及 XI, Xy ~ 所 .目标 是 表明 sup|H(z) 一 所,(z)| 2 0. 

第 一 个 方法 是 Bickel and Freedman (1981) 采用 的 , CAF Mallow 度量 如 果 
X 和 了 为 分 布 为 和 G 的 随机 变量 , Mallow 度量 定义 为 d,(F,G) = di(X,Y) = 
inf(E|X—Y|")'/", 这 里 , 下 确 界 是 关于 边缘 分 布 为 FA G 的 所 有 联合 分 布 . 下 面 是 
关于 d; 的 某 些 事实 . 令 Xn ~ Fn WRX ~ F, RA, d, (Fu, F) 一 0 的 充分 必要 条 件 为 
X,~ X R | lzrdPm(z) 一 [eraro WR E(|X1|") < 00, 则 d, (Ên, F) 25 0. 
对 于 任意 的 常数 a, d-(aX,aY) = Jald, (X,Y). WẸ E(X?) < 00 及 E(Y?) < o0, 那 
4, do(X,Y)? = [do(X — E(X), Y — E(Y))]? + |E(X — Y )|?. MR E(X;) = E(Y;) 及 
E(|X;|") < oo, E(|¥5|") < 00, 则 


2 
| E39) < a(x; Yj). 
j=l j=l « 1 
利用 d 的 性 质 , BY da(F,, F) 25 0 & Xn 2S p, A 
da( Hn, Hn) = da(Vn(X;, — Xn), Va(Xn 一 个) 


-二 (Sas ie ») 


i=1 i=l 
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i< = 
S4 GONE -Xn Xi — p)? 
i=l 


SOG Gy Xp) 
=y d(X{, X1)? — (p - EXT)? 
V de(Ên, F}? — (u - Xn)? 


-3; 9), 


a. 


因此 , sup |Ha (£) - An(2x)| as; 0. 

要 回顾 的 第 二 个 方法 源 于 Singh (1981)， 它 利用 Berry-Esséen 界 (1.28). $ 
© X1,… 为 ID, 均值 u = E(X1) ER, 方差 o? = V(X1) 和 三 阶 矩 EX |? < o. 
令 Zn = Va(Xn — w/o, W 


sup |P(Zn < z) — 85(z)| < oe (3.27) 
令 Zi = (Xn — Xn)/3, 这 里 , 62 =n! Ye - Xn). 用 所 替换 F, FX), 替换 
又 ,得 到 ~ 
LIX: -Xat 
sup [Pa (Zi < 9- Aos PE ra (3.28) 
令 d(F,G) = sup|F(x) — G(z)|, 并 定义 Bo(z) = O(x/a), 那么 ， 
sup [Pg, (Z4 < 2) — (2)|=sup Pp, (vim, -je z3) -ő (2) 
-oop ls, (Va; - Xa) < t) - 2 (0| 
=d(B,, 5). 
由 三 角 不 等 式 , 有 
(Fn, Hn) < dn, 3) + d( Bo, Go) + d( $s, Hn). (3.29) 


根据 中 心 极限 定理 (3.29) 的 第 三 项 趋 于 0” 由 于 3? as o = V(X), 第 二 项 
d(5, ,) 25 0. 第 一 项 有 界 于 式 (3.28) 的 右边 . 根据 下 面 结果 : 如 果 对 于 某 0 < 


5 <1, E|X1 |f < co, 那么 naay ag 0, 并 由 于 E(X?) < co, 第 一 项 趋 于 0. 


i=l 


此 d( Hn, Hn) ÈS 0. 
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3.8 练 习 


1. $ T(F)= f (一 站 8dF(z)/cs 为 偏 度 . 求 影响 函数 . 
2. 下 面 数 据 是 被 自助 法 的 发 明 者 Bradley Efron 用 来 描述 自助 法 的 . 数据 是 (进入 法 学 院 
所 需 的 )LSAT 得 分 和 GPA. 
LAST 576 635, 588 578 666 580 555 661 
651 605 653 575 545 572 594 


GPA 3.39 3.30 2.81 3.03 3.44 3.07 3.00 3.43 
3.36 3.13 3.12 2.74 2.76 2.88 3.96 
“ 每 个 数据 点 都 有 形式 Xi = (Yi, Zi), 这 里 , Yi = LSAT; 而 Zi = GPA; 求 相关 系数 的 插入 估计 . 
利用 下 面 三 种 方法 估计 标准 误差: (i) 影响 函数 ; (ii) 水 手 刀 法 ; (i) 自助 法 . 然后 计算 一 个 95% 
学 生化 枢 轴 自 助 法 置信 区 间 . 对 每 个 自助 法 样本 , 需要 计算 T 的 标准 误差 
3. $ Ta =X?, p=E(X1), ox =/e- pgF(z) Be âr =n 7 | - Knl". 表明 


i=l 


4Xn@a 4 Râs 
n n? 


Vboot = + a. 
4. 证 明定 理 3.16. 
5， 重 复 例 3.17 的 计算 , 但 利用 参数 自助 法 ， 假 定数 据 为 对 数 正 态 的 ， 也 就 是 假定 Y ~ 
N(p,0°), 而 Y = logX. 将 从 N(f, 6?) 抽取 样本 Yr,- Yn. 然后 令 X? 一 ce 
6， 计 算 机 实验 ， 实 施 旨 在 比较 四 个 自助 法 置信 区 间 的 模拟 ， 令 n = 50, 并 令 T(F) = 
(2 一 和 3dF(z)/o? 为 偏 度 . 抽取 Yi,- Yn ~ N(0,1), 并 令 Xi =e, i= 1,.…,n. 从 数据 
X1,… Xn 构造 TP) 的 四 种 形式 的 自助 法 95% 置 信 区 间 . 重复 整个 操作 许多 次 , 并 估计 这 四 
个 区 间 的 真实 覆盖 率 . 
ge 
Xise Xn ~ ta, 
这 里 , n = 25. $ 0 = T(F) = (qo.7s 一 90.25) /1.34, 这 里 gp 表示 p 分 位 数 . 做 模拟 来 比较 下 面 
9 的 置信 区 间 的 覆盖 率 和 长 度 : (i) 正 态 区 间 , 用 水 手 刀 法 标准 误差 ; (ii) 正 态 区 间 ,, 用 自助 法 标 
准 误差 ; (ii) 自助 法 分 位 数 区 间 . 
注意 : 水 手 刀 法 并 不 给 出 分 位 数 的 方差 的 一 个 相合 估计 . 
8. 令 Xi, Xn 为 不 同 的 观测 值 (没有 打 结 ). 表明 有 


by 


种 不 同 的 自助 法 样本 . 提示 : 想象 把 ni AHA n 个 桶 中 . 
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9. & X1,…, Xn 为 不 同 的 观测 值 (没有 打 结 ). 令 XT, A 表示 一 个 自助 法 样本 , 并 令 
Xa =n SO XP R EGI X VC Xn), E) AVX). 


=i 

10. 计算 机 实验 . 令 Xi, Xn ~ N(m,1). & 0 =e", 并 令 人 =ex 为 MLE. 产生 一 个 包 
E n= 100 个 观测 值 的 数据 集 (用 u = 5). 

(a) 利用 delta 方法 得 到 9 的 se 和 95% BAK. 利用 参数 自助 法 得 到 9 的 se 和 95% 置 
信和 区 间 . 利用 非 参 数 自助 法 得 到 9 的 se 和 95% RAKA. 比较 答案 . 

(b) 点 出 对 参数 和 非 参数 自助 法 的 自助 法 重复 的 直方 图 . 这 些 是 6 的 分 布 估计 . Delta 法 也 
给 出 了 这 个 分 布 的 近似 , 即 N( Se). 把 它们 和 6 的 真实 的 抽样 分 布 进行 比较 . 在 参数 自助 法 ， 
自助 法 或 delta 方法 中 , 哪 一 个 更 接近 真实 分 布 ? 

11. 令 Xi, ++, Xn ~ Uniform(0, 8). MLE 为 


0 = Xmax = max{X1,-+-, Xn}. 


产生 一 个 样本 量 为 50 的 数据 集 , 取 0 = 1. 

(a) RO 的 分 布 , 比较 O 的 真实 分 布 和 用 参数 和 非 参数 自助 法 得 到 的 直方 图 . 

(b) 这 是 非 参 数 自助 法 表现 非常 不 好 的 一 个 例子 . 事实 上 , 能 够 证 明 这 一 点 . 表明 , 对 于 参 
数 自助 法 , PO = 0) = 0, 而 对 于 非 参数 白 助 法 , PO = 全 ~ 0.632. 提示 : AM PO = Â) = 
1 一 [1 一 (1/n)]". REA n 增长 时 取 极 限 . 

12. 假定 给 50 个 人 以 安慰 剂 , 而 给 另外 50 人 一 个 新 疗法 ，30 个 安慰 剂 病人 表现 了 好 转 ， 
而 40 个 新 疗法 病人 表现 好 转 . $ 7 = pz — p, 这 里 po 为 在 治疗 下 好 转 的 概率 , 而 pi 为 在 安 
FGA FE PEER. 

(a) 求 r 的 MLE. 利用 delta 方法 求 其 标准 误差 和 90% 置 信 区 间 . 

(b) 利用 自助 法 求 其 标准 误差 和 90% 置 信 区 间 . 

13. 令 Xn, Xn ~ FW UD 的 , 并 令 Xi, Xa 为 从 所 抽取 的 一 个 自助 法 样本 . > 
G 表示 XI 的 边缘 分 布 . 注意 , G(z) = P(X? < 2) = EP(X? < z|X1,……, Xn) = E(Fa(e)) = 
F(x). 这 样 , 看 起 来 X? 和 Xi 有 同样 的 分 布 . 但 是 , 在 练习 9 中 , 表明 VAn) A V(X%). 这 似 
TAN. 请 解释 . 
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为 了 估计 一 个 曲线 , 如 概率 密度 函数 f 或 回归 函数 r, 应 该 以 某 种 方式 对 数据 
进行 光滑 ， 本 书 余下 的 部 分 全 都 贡献 给 光滑 方法 ， 本 章 将 讨论 某 些 和 光滑 有 关 的 
一 般 问 题 . 将 主要 研究 两 种 类 型 的 问题 . 第 一 种 是 密度 估计 (density estimation), 这 
E, 有 来 自 密度 为 /的 分 布 F 的 一 个 样本 X1,…, Xn, 记 为 


LD Xn~ fy (4.1) 


而 且 想 要 估计 概率 密度 函数 f. 第 二 种 为 回归 (regression)， 这 里 ， 有 些 观测 对 
(21, Y1), ++, (En, Yn), 这 里 ， 
Y; = r(x) + éi, (4.2) 


而 E(e;) = 0, 并 且 想 要 估计 回归 函数 r. 先 以 某 些 例子 开始 ; 在 以 后 的 各 章节 将 会 
更 仔细 地 讨论 所 有 这 些 例子 . 
4.3 例 (密度 估计 ) 图 4.1 展示 了 来 自 Sloan 天 空 观测 (Sloan digital sky survey, 
SDSS) 的 1266 个 数据 点 的 直方 图 . 正如 在 SDSS 网 站 waw. sdss. org 描述 的 那样 ; 
简单 地 说 , Sloan 天 空 观测 是 至 今 为 止 最 有 雄心 的 太空 观测 课题 . 该 观 
测 将 详细 绘 出 整个 天 空 四 分 之 一 的 天 图 , 确定 多 于 一 亿 个 天 体 的 位 置 和 绝 
SER. 它 还 将 度量 到 多 于 一 百 万 个 星系 和 类 星体 的 距离 . 
每 一 个 数据 点 Xi 是 一 个 红 移 @, 它 本 质 上 是 一 个 星系 到 我 们 的 距离 . 数据 基于 一 
个 “ 笔 形 波束 (pencil beam)”; 它 意味 着 样本 是 基于 从 地 球 指向 空间 的 狭 罕 的 一 个 
管子 , 见 图 4.2. 完全 的 数据 集 是 三 维 的 . 沿 着 这 个 笔 形 波束 摘出 数据 以 使 它 成 为 一 
维 的 . 目标 是 理解 星系 的 分 布 . 天 文学 家 特别 感 兴趣 于 星系 的 聚集 .因为 光速 是 有 
穷 的 , 看 遥远 的 星系 时 , 在 看 时 间 上 的 遥远 过 去 . 通过 观察 星系 如 何 作为 红 移 的 一 
个 函数 来 聚集 , 在 看 星系 的 聚集 如 何 随时 间 进 化 . 
把 红 移 X1,…, Xn 看 成 来 自分 布 F 的 一 个 样本 , 该 分 布 有 密度 f, 即 如 在 (4.1) 
中 那样 ， 
po 
O 当 一 个 天 体 向 远离 我 们 的 方向 运动 , 它 的 光 移 向 光谱 中 的 红 端 , KYL (redshift). -ARREN 
我 们 的 速度 越 快 , 其 光 的 红 向 移动 就 越 其 高 我 们 较 远 的 天 体 ,比较 近 的 天 体 远离 我 们 的 速度 要 快 ， 因 此 由 
红 移 能 够 推导 出 距离 .这 实际 上 比 听 起 来 复杂 ,因为 从 红 移 到 距离 的 换算 需要 关于 宇宙 几何 学 的 知识 . 
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图 4.1 天 文 数据 的 三 个 直方 图 


左上 边 直方 图 有 太 多 的 箱 . 左下 边 直方 图 有 太 少 的 箱 . 右上 边 的 直方 图 有 308 个 箱 , 箱 的 数目 是 由 在 第 6 章 
描述 的 交叉 验证 法 选择 的 ， 右 下 边 的 图 展示 了 估计 的 均 方 误差 (不 精确 性 ) 对 箱 的 数目 的 散 点 图 . 


笔 形 波束 


图 4.2 在 一 个 笔 形 波束 的 样本 中 , 星系 的 位 置 是 沿 着 从 地 球 向 外 的 一 个 通道 记录 的 
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发 现 星系 聚集 的 一 种 方式 为 在 密度 中 寻找 峰值 . 直方 图 是 估计 密度 的 一 种 简单 
方法 . 细节 将 在 第 6 章 给 出 , 这 里 是 一 个 简单 的 描述 . 把 实 轴 切 成 一 些 区 间 , 或 箱 
(bin), 并 且 计 算 每 个 箱 中 的 观测 值 数目 .直方 图 中 条 的 高 度 和 各 箱 中 的 计数 成 比 
例 . 图 4.1 中 的 三 个 直方 图 就 基于 箱 的 不 同 数目 . 左上 边 的 直方 图 就 利用 了 大 量 的 
箱 , 右上 边 的 直方 图 用 得 少 些 , 左下 边 的 直方 图 用 得 更 少 . 箱 的 宽度 h 是 一 个 光滑 
参数 (smoothing parameter). 将 看 到 , 大 的 h( 很 少 箱子 ) 导致 具有 大 偏 倚 的 一 个 估 
计 , 但 具有 小 方差 , 称 为 过 光滑 (oversmoothing), 而 小 的 h( 很 多 箱子 ) 导致 具有 小 
偏 倚 的 一 个 估计 , 但 方差 要 大 , 称 为 欠 光 滑 (undersmoothing). 右 下 边 的 图 显示 了 
直方 图 估计 的 均 方 误差 (mean squared error, MSE) 的 一 个 估计 , 它 是 估计 量 不 精确 
性 (inaccuracy) 的 一 个 度量 . 估计 的 MSE 是 箱 的 数目 的 一 个 函数 . 右上 边 的 直方 
图 有 308 个 箱 , 相应 于 最 小 化 MSE 的 估计 . 

图 4.3 显示 了 一 个 更 加 复杂 的 f 的 估计 , 称 为 核 估 计 (kernel estimator), 它 将 
在 第 6 章 描述 . 这 里 也 有 一 个 光滑 参数 h. 这 三 个 估计 相应 于 递增 的 h, 只 有 对 数 
据 进行 恰当 程度 的 光滑 , 才能 清楚 显示 数据 中 的 结构 (上 右 小 图 ). a 


00 o o 


.0 了 š 0. 

E 

P 2 
2 
2 n: 

$ 3 0.2 0.000 0.008 
h 
q 4.3 所 MSE 的 估计 


LA: 过 光滑 . 上 右 : 刚好 合适 (带宽 由 交叉 验证 选择 ). FE: 欠 光 滑 ， 下 右 : 估计 的 MSE, 它 是 光滑 参数 
h 的 函数 . 


4.4 例 ( 非 参 数 回归 ) ”宇宙 的 起 源 通常 被 称 为 大 爆炸 (big bang). 把 这 个 事件 


想像 成 在 一 个 什么 都 没有 的 空间 中 发 生 是 误导 . 更 精确 地 说 , 早期 的 宇宙 是 处 于 一 
个 热 的 、 致 密 的 状态 .从 那 时 起 , 宇宙 就 扩张 和 冷却 . 大 爆炸 剩 下 来 的 热量 仍然 可 


2 0.0 fo p 0.2 
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以 观测 到 , 并 称 为 宇宙 微波 背景 (cosmic microwave background, CMB) 辐射 . 图 4.4 
展示 了 从 Wilkinson 微波 各 向 异性 探测 器 (Wilkinson microwave anisotropy probe, 
WMAP) 得 到 的 CMB 数据 .WMAP 上 的 数据 在 网 站 http://map.gsfc.nasa.gov 
提供 . 图 象 显示 在 天 空中 每 一 点 的 温度 . 这 是 在 大 爆炸 (big bang) 后 379000 年 后 捕 
捉 的 宇宙 图 象 . 平均 温度 是 2.73K, 但 天 空 各 处 的 温度 并 不 是 一 个 常数 . 在 温度 图 上 
的 波动 提供 了 早期 宇宙 的 信息 . 其 实 , 当 宇宙 扩张 时 , 就 存在 扩张 力 和 由 引力 所 致 
的 收缩 力 的 较量 . 这 造成 热气 体 中 的 波动 (如 同一 碗 震动 的 果冻 ), 它 是 温度 波动 的 
原因 . 在 每 个 频率 (或 多 极 , multipole) x 的 温度 波动 的 强度 r(x) 称 为 能 谱 (power 
spectrum), 而 宇宙 学 家 利用 这 个 能 谱 来 回答 宇宙 学 问题 (Genovese et al., 2004). 例 
如 , 相对 大 量 的 不 同 的 宇宙 成 分 (如 重子 和 暗物质 ) 相应 于 能 谱 的 峰值 . 通过 (这 里 
将 不 描述 的 ) 非常 复杂 的 方法 , 温度 图 能 够 简化 成 一 个 能 量 对 频率 的 散 点 图 . 头 400 
个 数据 点 显示 在 图 4.5 中 (所 有 899 个 数据 点 在 图 5.3 中 ). 


图 4.4 WMAP(Wilkinson 微波 各 向 异性 探测 器 ) 温度 图 
这 是 大 爆炸 剩 下 的 热量 . 数据 显示 了 天 空中 每 一 点 的 温度 . 在 这 个 图 象 中 捕捉 的 微波 光 来 自 于 大 爆炸 
379000 年 之 后 (130 亿 年 前 ). 平均 温度 是 2.73K. 在 温度 图 上 的 波动 提供 了 早期 宇宙 的 重要 信息 . 


分 析 到 目前 这 步 , 数据 包含 n 个 对 (21, Yi), (Ens Yn), 这 里 ri 称 为 多 极 矩 ， 
而 Yi 称 为 估计 的 温度 波动 能 谱 . 如 果 r(z) 表示 真实 能 谱 , 那么 


Y; = r(z;) + 6, 


这 里 e 是 均值 为 0 的 随机 误差 , 如 (4.2) 一 样 . 在 非 参数 回归 中 的 目标 是 在 对 其 仅 
仅 做 最 少 的 假定 下 来 估计 r. 图 4.5 中 的 第 一 个 图 显示 了 数据 , 而 后 面 的 三 个 图 显 
示 了 随 着 光滑 参数 h 的 增加 , r 的 非 参 数 估计 ( 称 为 局 部 回归 估计 ). 如 果 光 滑 太 少 
或 太 多 , 数据 的 结构 就 会 变形 . 细节 将 在 下 一 章 解释 . 

4.5 例 ( 非 参数 回归 ) Ruppert et al. (2003) 描述 了 光 的 探测 和 范围 (light de- 
tection and ranging, LIDAR) 的 实验 数据 . LIDAR 是 用 来 监测 污染 物 的 ; 参见 Sigrist 
(1994). 图 4.6 显示 了 221 个 观测 值 . 响应 变量 是 来 自 两 个 激光 器 的 光 的 比率 的 对 
数 . 一 束 激光 的 频率 为 水 银 的 谐振 频率 , 而 第 二 个 有 一 个 不 同 的 频率 . 这 里 显示 的 
估计 是 所 谓 回归 直方 图 (regressogram), 它 是 直方 图 的 回归 形式 . 把 横 轴 划分 为 箱 ， 
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然后 在 每 个 箱 中 取 去 的 样本 均值 . 光滑 参数 是 箱 的 宽度 . 当 箱 宽 h 递减 时 , 估计 


的 回归 函数 Fn 从 过 光滑 变 向 欠 光 滑 . n 
i i 
[Gis 
0 200 400 
频率 
= E : 
0 200 400 0 200 400 
频率 频率 


图 4.5 CMB 数据 的 头 400 个 数据 点 
EZ: 能 量 对 频率 的 散 点 图 ， 上 右 : 欠 光 滑 .下 左 : 刚 合适 . FG: 过 光滑 . 


图 46 例 45 的 LIDAR 数据 
估计 是 由 在 各 箱 平均 Yi 而 得 到 的 回归 直方 图 . HORE h 时 , 合计 变 成 较 不 光滑 . 
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4.6 例 ( 非 参 数 二 分 回归 ) ”这 个 例子 来 自 Pagano and Gauvreau (1993), 也 出 
现在 Ruppert et al. (2003) 上 . 目标 是 把 223 个 婴儿 是 否 有 支气管 和 肺 的 发 育 不 
良 (bronchopulmonary dysplasia, BPD) 和 出 生体 重 (单位 : 克 ) 关联 起 来 . BPD 是 
一 个 慢性 肺 部 疾病 , 能 够 影响 早产 婴儿 .结果 Y 取 两 个 值 : RELA BPD, W 
Y=1, EN Y = 0. 协 变量 为 c= 出 生体 重 . 关于 二 分 结果 Y 和 协 变量 r 关系 的 
通常 参数 模型 为 logistic 回归 (logistic regression), 它 的 形式 为 


epo+pBiz 
7 (2; Bo, 81) = P(Y = 1|X = x)= T+ tAr’ 
参数 内 和 局 通常 由 最 大 似 然 法 估计 . 图 4.7 展示 了 估计 的 函数 (HLB)r (a; Bo, Br) 
及 数据 , 还 显示 了 两 个 非 参 数 估计 . 在 这 个 例子 中 , 非 参 数 估计 和 参数 估计 没有 多 
大 区 别 . 当然 , 并 不 总 是 如 此 . 图 


BAAR 


0 wm wo 
~ — — 
400 600 800 1000 1200 1400 1600 
ý 出 生体 重 ( 克 ) 


图 4.7 例 4.6 的 BPD 数据 
数据 是 用 小 的 竖 直 线段 显示 . (KA logistic 回归 ( 实 线 )， 
局 部 似 然 (短线 虚线 ) 和 局 部 线性 回归 (点 虚线 ). 


4.7 例 (多 元 非 参数 回归 ) ”这 个 例子 来 自 Venables and Ripley (2002), 有 三 个 
协 变量 和 一 个 响应 变量 . 数据 来 自 一 个 石油 库 中 的 48 个 岩石 样本 . 因 变 量 为 渗透 
性 (单位 为 毫 达 西 , mili-Darcies). 协 变量 为 小 孔 的 面积 (基于 256 R 256 背景 的 像 
素 ), 周 长 (单位 : 像素 ) 和 形状 ( 周 长 /V 面 积 ). 目标 是 用 这 三 个 协 变量 预测 渗透 性 . 
一 个 非 参 数 模 型 为 


渗透 性 = (HR, AK, ÆR) +e, 


4.1 偏 倚 方 差 的 平衡 4l. 


这 里 , r 是 一 个 光滑 函数 . 一 个 简单 的 , 但 不 那么 一 般 的 模型 为 可 加 模型 (additive 


model) 


渗透 性 = mi( 面 积 ) + rz( 周 长 ) + rs( 形 状 ) + 6， 
这 里 , ri, ro 和 rs 为 光滑 函数 . 图 4.8 展示 了 mi, ro 和 rs 的 估计 . 图 


0 200 400 600 800 1000 
形状 


图 4.8 “ 例 4.7 的 岩石 数据 
图 形 表 示 可 加 模型 Y = Fi (x1) + Fo(w2) + Fa(xs) 十 e MERA 71,72 和 rs. 


41 偏 傈 -方差 的 平衡 
S falc) 为 函数 f(z) 的 估计 . 平方 误差 (squared error)( 或 L2) 损失 函数 为 


L(f(z), f(z) = [f(z) - fala)? (4.8) 
该 损失 的 平均 称 为 风险 (risk) 或 者 均 方 误差 (mean squared error, MSE) 并 且 记 为 
MSE = R(f(z), f(z)) = E(L(f(z), fa(2)))- (4.9) 
方程 (4.9) 中 定义 的 随机 变量 是 函数 fr (a), 这 意味 着 它 依赖 于 观测 数据 . 将 把 风险 
和 MSE 等 同 使 用 . 简单 的 计算 (练习 2) 表明 
R(f(2), fa(2)) = bias? + Ve, ~ (4.10) 


这 里 ， 
bias? = E(f,(z)) — f(z) 
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为 f(e) 的 偏 倚 , 而 且 
Ve = V(fa(z)) 
W Fala) 的 方差 , 即 : 


风险 = 均 方 误差 = RA + 方差 . (4.11) 


上 面 的 定义 说 的 是 在 一 个 点 z 的 风险 . 现在 汇总 一 下 在 不 同 z 值 上 的 风险 . 在 
密度 估计 问题 中 , 将 使 用 积分 的 风险 (integrated risk) 或 积分 的 均 方 误差 (integrated 
mean squared error), 定义 为 


RU Fa) = | ROW, Fale). (4.12) 
对 于 回归 问题 , 能够 用 积分 的 MSE 或 平均 的 均 方 误差 (average mean squared error) 
Rn 和 ) = zy R(r(ai), Fala). (4.13) 
SPAT FOU LRH. ICT LL MEAN 
Y; = r(z;) + éi- 


假定 在 每 个 zi 点 抽取 一 个 新 的 观测 值 Y* = r(zi) + ef. 如 果 用 Pala) 来 预测 Y, 
那么 平方 预测 误差 (squared prediction error) 为 


[只 —Fa(wa)]? = [r(zi) + 6 -th (zo). 


定义 预测 性 风险 (predictive risk) 为 
预测 性 风险 = E 人 Lin - roa) t 


那么 ,有 
预测 性 风险 = R(r, n) +c, (4.14) 


XM, o= n-i SD E((e?)?) 是 一 个 常数 特别 地 , 如 果 每 个 < 有 方差 02, 那么， 
i=1 


预测 性 风险 = R(r, m) +07. (4.15) 
这 样 , 除了 一 个 常数 , 平均 风险 和 预测 性 风险 是 一 样 的 . 
在 光滑 过 程 中 的 一 个 主要 挑战 是 确定 要 光滑 到 什么 程度 . 当 数 据 被 过 分 光滑 
时 ， 偏 倚 项 大 而 方差 小 ， 当 数据 被 不 足 光滑 时 , 结果 正 相反 , 见 图 4.9， 这 称 为 偏 
倚 - 方 差 平衡 (bias-variance tradeoff), 使 风险 最 小 就 相当 于 去 平衡 偏 倚 和 方差 . 


4.1 偏 倚 方 差 的 平衡 “43 


< 较 少 光滑 ” 最 优 光 滑 程度 ” 较 多 光滑 > 


图 4.9 偏 倚 - 方 差 平衡 
随 着 光滑 程度 的 增加 ， 偏 倚 增 加 而 方差 减 小 . 由 竖 直线 标 出 的 最 优 的 光滑 程度 使 得 


风险 = WH + HH 最 小 . 


4.16 例 ”为 了 更 好 地 理解 偏 倚 方 差 平 衡 ， 令 f 为 一 个 PDF, 并 且 考虑 估计 
FO). & 户 为 一 个 小 的 正 数 . 定义 


m=P(-$<2<h 3) = fe f(x)dx = hf (0), 


并 且 因 此 有 


HOR Ea, 
& X ARIA (—h/2,h/2) 中 的 观测 值 数目 . 那么 X ~ Binomial(n, pa). ps 的 一 个 估 
WH Pr = X/m 并 因此 f(0) 的 一 个 估计 为 


£9) — Pa = * 

fn(0) = ae (4.17) 
现在 将 表明 , 对 于 某 常 数 A 和 B, 这 个 估计 的 MSE 有 下 面 形式 : 

MSE = Ah’ + Z, (4.18) 


第 一 项 相应 于 偏 倚 的 平方 , 而 第 二 项 相应 于 方差 . 
因为 X 为 二 项 分 布 , CASE npn. 现在 ， 


2 
f(a) = FO + 2f'0) + FFO. 
这 样 
h/2 h/2 2 
m= fi toux f Voro 520] a2 


= nf(0) + EO J” POE, 
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并 因此 , 根据 (4.17), 


EAO) = 2D = Be x poj LOM 
因此 , 偏 倚 为 i 
bias = E(f, (0) — f(0) ~ EO, (4.19) 
为 了 计算 方差 , 注意 V(X) = nph(1 — pr). 因此 ， 
yo Pall- pa) _ P 
V(Fn(0)) = TTY =’ = at 
这 里 利用 了 下 面 的 事实 : HF h Ery 1 一 pn x1. 于 是 ， 
f"(0)h3 
A MO+ a _ FO) TO O 
V(fn(0)) ~ nh? Sah an ~ nh’ (2:20) 
因此 ， 
MSE = bias? +-V(f,(0)) © Puw + £0) = Ah‘ + z, (4.21) 


当 光 滑 得 多 些 , 即 增加 h 时 , 偏 倚 项 增加 而 方差 项 减少 . 当 光 滑 得 少 些 , BRD h 
时 , 偏 倚 项 减少 而 方差 项 增加 . 这 就 是 典型 的 偏差 -方差 分 析 . G] 


4.2 核 
在 本 书 余下 的 部 分 , 将 经 常用 到 “ 核 ” 这 个 术语 . 这 里 , 核 (kernel) 用 于 称呼 任 
意 的 光滑 函数 K, CHA K(z) > 0 以 及 
J K(z)dz =1, J zK(z)dz =0, ok = J z2K(z)dz > 0. (4.22) 
下 面 是 一 些 常用 的 核 : i 
boxcar 核 : K(x) = z0) 
Gaussian 核 : K(z)= 


1-7/2 


Van i 
Epanechnikov 核 : K(z) = Ža — z°)I (z), 


tricube 核 : K(x) = ma 一 |z|?)37(z)， 


1 <1 
taped ts BS 
0, |2|>1. 


这 里 ， 


4.10 画 出 了 这 些 核 . 


43 什么 损失 函数 +45 - 


of 


-3 0 3 3 0 3 
图 4.10 核 的 例子 


boxcar BF (EZ), Gaussian $ (LÆ), Epanechnikov 核 (F#), tricube 核 (F). 
核 是 用 来 取 局 部 平均 的 .例如 , 假定 有 成 对 数据 (21, Y1), (2n, Yn), 而 且 想 


对 在 某 点 的 距离 h 的 范围 内 的 那些 z; 取 它 们 相应 的 Yi 的 平均 . 这 个 局 部 平均 
等 于 


Sas), (4.23) 
i=1 
这 里 ， 
&(@) = A. (4.24) 
iz 
yee) 


而 且 K 是 boxcar 核 . 如 果 把 boxcar 核 代 以 其 他 的 核 , WA (4.23) 成 为 一 个 局 部 加 
权 平 均 . 核 在 许多 估计 方法 中 起 重要 的 作用 . 较 光滑 的 核 导 致 较 光滑 的 估计 , 它们 
通常 比 boxcar 核 更 受 欢迎 . 
4.3 ”什么 损失 函数 
能 用 平方 误差 之 外 的 其 他 损失 函数 . L 损失 


{jve- hopa)” 


已 经 受到 某 些 注意 ; 特别 是 Li, 它 对 离 群 点 不 敏感 , 而 且 在 一 一 对 应 的 变换 下 不 变 . 
对 于 其 他 的 Lp 损失 函数 , 结果 和 L 没有 多 大 戏剧 性 的 不 同 , 只 不 过 当 p #2 时， 
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使 用 Z 要 更 难 一 些 . 因此 Le 仍然 是 受 欢 迎 的 选择 . 在 机 器 学 习 的 领域 , 一些 人 感 
兴趣 于 Kullback- Teibler 损失 


2 及 = f #0) [low tR] ae. 


事实 上 , 最 大 似 然 估计 隐 含 地 利用 了 这 个 损失 函数 尽管 Kullback-Leibler 距离 在 
参数 统计 中 的 作用 很 自然 , 但 在 光滑 问题 中 , 它 通常 并 不 是 一 个 合适 的 损失 函数 , A 
为 它 对 分 布 的 尾部 极端 敏感 , 参见 Hall (1987). 后 果 是 , 尾部 能 够 主导 整个 估计 过 
程 . 


44 置 信 集 

对 于 得 出 科学 结论 来 说 , 仅仅 提供 曲线 /的 一 个 估计 fa 很 难说 是 充分 的 . 在 

以 后 的 各 章 中 , 将 提供 7 的 一 个 置信 集 . 这 将 或 者 有 某 半径 sn 的 球 的 形式 
B= {1: fise)-feyPar < s), 
或 者 是 基于 函数 对 (t(z),w(z)) 的 一 个 带 (或 包 络 ) 
Bn = {f : e(z) < f(x) < ulz), 对 所 有 的 z}. 
在 每 种 情况 , 将 希望 , MPA f EF, 这 里 大 为 某 大 类 函数 , 有 
Pr(f €B,) >1-a. (4.25) 


实践 中 , 有 可 能 很 难 发 现 使 (4.25) 刚好 满足 的 Bn. 所 以 必须 考虑 使 (4.25) 仅仅 近 
似 成 立 的 办 法 . 关键 是 , 在 头脑 中 要 认识 到 , 如 果 没 有 某 种 置信 集 , 一 个 估计 所 通 
常 是 没有 用 的 . 


4.5 维 数 诅咒 


伴随 着 光滑 方法 而 出 现 的 一 个 问题 是 维 数 诅咒 (curse of dimensionality), 这 是 
通常 被 认为 是 来 自 Bellman (1961) 的 一 个 术语 . 它 大 体 上 意味 着 当 观 测 值 的 维 数 增 
加 时 , 估计 非常 迅速 地 变 得 越 来 越 困 难 . 

至 少 有 两 个 关于 这 个 诅咒 的 版 本 . 第 一 个 是 计算 的 维 数 诅 咒 . 这 是 讲 某 些 方法 
的 计算 任务 随 着 维 数 的 增长 而 成 指数 地 增加 . 然而 , 这 里 着 重 强调 第 二 个 版 本 , 称 
为 维 数 的 统计 诅咒 : 如 果 数 据 有 维 数 d, 那么 需要 一 个 有 随 着 d 指数 增长 的 样本 量 
的 数据 . 在 下 面 几 章 中 将 会 看 到 , 一 个 光滑 (二 次 可 微 的 ) 曲线 的 任何 非 参 数 估计 
的 均 方 误差 一 般 都 会 有 下 面 的 形式 , 即 对 某 c > 0， 
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c 
MSE = mrar 


如 果 想 使 这 个 MSE 等 于 某 个 小 的 数目 5, 能 够 令 MSE = 6, FH n K. 发 现 


c\a/4 
nx (5 > 
它 随 着 维 数 d 成 指数 增长 . 
这 个 现象 的 的 理由 在 于 , 光滑 意味 着 利用 z 点 的 局 部 邻 域 中 的 数据 点 来 估计 
一 个 函数 f(z). 但 是 , 在 高 维 问题 中 , 数据 非常 稀少 , 因此 一 个 局 部 邻 域 包含 极 少 的 
点 


考虑 一 个 例子 . 假定 有 n 个 数据 点 均匀 地 分 布 在 区 间 [-1,1] 上 , 那么 有 多 少 
点 将 会 在 [-0.1,0.1] EWE? 回答 是 : KY n/10 个 点 . 现在 假定 有 ”个 数据 点 在 10 
维 单位 立方 [-1,1] = [1,1] x… x [-1,1] 之 中 . 有 多 少 点 将 会 在 [-0.1,0.1]10 中 
We? 回答 是 : KAA a 
0.2 n 
nx (¥) = ifs 


个 . 这 样 , n 必须 非常 大 以 保证 小 的 邻 域 存在 有 点 . 

结果 是 , 将 讨论 的 所 有 方法 原则 上 都 能 够 用 于 高 维 问题 . 然而 , 即使 能 够 克服 
计算 问题 , 仍然 面 对 维 数 的 统计 诅咒 . 可 能 有 能 力 去 计算 一 个 估计 , 但 它 不 会 是 精 
确 的 . 事实 上 , 如 果 计 算 一 个 关于 估计 的 置信 区 间 (正如 应 该 做 的 ), 那么 它 将 会 令 
AMEX. 这 不 是 方法 的 失效 . 或 许 应 该 说 , 置信 区 间 正 确 地 指出 了 问题 的 固有 
困难 . 


4.6 文献 说 明 


有 一 些 很 好 的 关于 光滑 方法 的 教科 书 , 它们 包括 Silverman (1986), Scott (1992), 
Simonoff (1996), Ruppert et al. (2003), Fan and Gijbels (1996). 其 他 参考 文献 能 够 
在 第 5 章 和 第 6 章 的 后 面 找到 . Hall (1987) 讨论 了 和 Kullback-Leibler 损失 有 关 的 
问题 . 关于 维 数 诅 咒 的 广泛 讨论 , BH Hastie et al. (2001). 


47 练 习 
1. 令 Xi Xn 为 来 自 具 有 密度 的 分 布 F 的 IID 样本 . 关于 f 的 似 然 函数 为 
Cn(f) = [1 F. 
ii 


如 果 模 型 是 所 有 概率 密度 函数 的 集合 F, 那么 f 的 最 大 似 然 估 计 是 什么 ? 
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2. 证 明 方程 (4.10). 

3. 令 Xi) Xn 为 来 自 具 有 密度 fo(z) = (2n)-/2e-@-"/? 的 N(0,1) 分 布 的 IID 样 
本 . 六 密度 信 计 Ñe) = fo(z), 这 里 ,9 = 又。 为 样本 均值 . 求 F HAR. 

4. 回顾 在 两 个 密度 f 和 g 之 间 的 Kullback-Leibler EBS D(f,g) = | f(z)log(f(z)/ 
g(z))dz. 考虑 一 维 参数 模型 {jo(z) : 9 ER}. 建立 在 关于 9 的 Lo 损失 和 Kullback-Leibler 损 
失 之 间 的 一 个 近似 关系 . 特别 表明 D(fo, fo) = (9 一 ?了 (0)/2, KH, 0 为 真实 值 , y 接近 0, 而 
1(0) 为 Fisher 信息 . 

5. Ly 损失 , L2 损失 和 Kullback-Leibler 损失 之 间 的 关系 如 何 ? 

6. 重复 方程 (4.21) 的 推导 , 但 取 X 为 d 维 的 . 把 小 区 间 [—h/2,h/2] 换 成 小 的 d 维 矩 形 . 
求 使 得 MSE 最 小 的 值 , 指出 需要 多 大 的 n 才能 使 MSE 等 于 0.1. 

7. 从 本 书 的 网 站 上 下 载 本 章 例子 的 数据 集 ， 写 出 计算 直方 图 和 回归 直方 图 的 程序 , 并 用 于 
这 些 数 据 集 . 


BSB 非 参数 回归 


在 这 一 章 将 学 习 非 参数 回归 , 用 机 器 学 习 的 行 话 , 也 称 为 “学 习 一 个 函数 (learn- 
ing a function)”. 已 给 n 对 观测 值 (zi Y1), , (cn, Yn), 如 图 5.1~ 图 5.3 所 显示 的 . 
响应 变量 (response variable)Y 和 协 变量 (covariate) z 的 关系 由 下 面 方程 定义 : 


Y; = r(zi)+ éi, Ee)=0, i=1,---,n, (5.1) 
这 里 r 为 回归 函数 (regression function). Æi x 也 称 为 特征 (feature)， 想 要 在 弱 
的 假定 下 估计 (或 “学习 ”) 函数 r. r(x) 的 估计 用 F(a) 表示 . 也 称 ala) 为 光滑 


器 (smoother). 首先 , 作 方差 V(ei) = o? 不 依赖 于 z 的 简单 化 假定 . 以 后 将 放松 这 
个 假定 . 
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图 5.1 CMB 数据 


横 轴 为 多 极 矩 , 它 本 质 上 是 在 CMB 温度 场 中 的 波动 频率 . 纵 轴 是 在 每 个 频率 上 波动 的 势 或 者 强度 . 上 面 小 
图 显示 了 完全 的 数据 ， 下面 小 图 显示 了 头 400 个 数据 点 . 位 于 z = 200 附近 的 第 一 个 峰 是 显然 的 . 在 右边 
可 能 会 有 第 二 和 第 三 个 峰 . 


在 (5.1) 中 , 把 协 变量 ri 的 值 看 成 为 固定 的 , 也 能 够 把 它们 看 成 随机 的 , 那 时 ， 


把 数据 记 为 (Xi, 六),…, (Xn: Yn), 而 r(z) 则 解释 为 在 X = x 的 条 件 下 Y 的 均值， 
即 
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r(x) = E(Y|X = 7). (5.2) 
这 两 种 方式 没有 多 大 差别 ; 除了 特别 说 明 , 将 多 半 按 “固定 的 2” 方式 考虑 . 

5.3 例 (CMB 数据 ) 回顾 例 4.4 的 CMB( 宇 宙 微 波 背景 辐射 ) 数据 . 

图 5.1 显示 了 数据 9. 头 一 个 图 显示 了 整个 范围 的 899 个 数据 点 , 而 第 二 个 图 
显示 了 头 400 个 数据 点 . 有 关于 r(zi) 的 充满 噪声 的 度量 Yo 因而 数据 有 (5.1) 的 
FER. 目的 是 估计 r. 方差 V(ei) 无 疑 地 不 是 常数 , 而 是 z 的 一 个 函数 . 然而 , 第 二 
个 图 表明 , 常数 方差 的 假定 对 于 头 400 个 点 是 有 道理 的 . 人 们 相信 , r 可 能 在 数据 
范围 内 有 三 个 峰 . 第 一 个 峰 在 第 二 个 图 中 是 明显 的 . 第 二 或 第 三 个 峰 的 存在 就 没有 
这 么 显然 ; 研究 这 些 峰 显著 性 需要 认真 的 推断 . Ê 

在 这 一 章 考 虑 的 方法 是 局 部 回归 方法 (local regression method) 和 惩罚 方法 
(penalization method). 前 者 包括 核 回 归 (kernel regression) 和 局 部 多 项 式 回归 (local 
polynomial regression). 后 者 导致 基于 样 条 (spline) 的 方法 . 在 第 8, 9 Hi, 将 考虑 基 
于 正 交 函数 的 不 同方 法 . 所 有 本 章 的 估计 量 都 是 线性 光滑 器 (linear smoother), 将 在 
5.2 节 讨 论 这 一 点 . 

在 投入 到 非 参数 回归 之 前 , 首先 简单 回顾 通常 的 线性 回归 和 它 的 近亲 logistic 
回归 . 关于 更 多 的 线性 回归 , 可 参见 Weisberg (1985). 


5.1 线性 和 logistic 回归 回顾 


假定 有 数据 (21, Y1), (En, Yn), 这 里 , Y; € R 而 mi = (Si, wip)? € RP. 
线性 回归 模型 (linear regression model) 假定 


Yi =r(z) +a =) Bzy te, i=1, m, (5.4) 
j=l 


这 里 , E(e) = 0 及 Ve) = 07. 
警告 ! 通常 想 在 模型 中 包括 截 距 , 因此 将 约定 ra = 1. 
{Rit SE (design matrix) X 为 n x p 矩阵 , 定义 为 


Ti Tl2 ` Tip 

T21 T22 … Lap 
x 

fni Tn? ‘+ Enp 


作为 X 各 列 的 线性 组 合 而 得 到 的 向 量 集合 C 称 为 X 的 列 空间 (column space). 
O 如 果 你 原意 往 后 翻 , 图 5.3 显示 了 回归 函数 的 一 个 非 参数 估计 . 注意 , 该 图 的 纵 轴 刻 度 是 不 同 的 . 


5.1 线性 和 logistic 回归 回顾 : -51- 


SY = (Yi, Yn)", € = (e1,-- en)? 及 B= (fr, +++, Bp)". 能 够 把 (5.4) 写 
成 
Y=XB+e . (5.5) 


最 小 二 乘 估计 (least squares estimator)@ = (fi,---, 8p)" 是 使 得 残 差 平方 和 


(residual sums of squares) 
2 
n P 
RSS = (Y - XB)T(Y - XB) => (« - Sa) 
i=1 j=l 


最 小 的 向 量 . 假定 XTX LAWN, 那么 最 小 二 乘 估计 为 
B =(XTX) XTY. (5.6) 
于 是 在 z = (z1,…,zp)T 的 r(x) 的 估计 为 
P 
a(s) = 》 房 ri = 0B. 
j=1 


这 样 , WAM (fitted value) > = (Fa (21), --, Pa(2n))! 可 以 写成 
l r=XA=Ly, (6.7) 
这 里 ， 
= (5.8) 
称 为 帽子 矩阵 (hat matrix). 向 量 E = Y — r 称 为 残 差 (residual). 帽子 矩阵 是 对 称 
的 (symmetric), 即 L = LT 和 畴 等 的 (idempotent), 即 L? = L. 因此 BY BX 
的 列 空间 C 上 的 投影 . 能 够 表明 , 参数 的 数目 p 和 矩阵 L 的 关系 由 下 面 方程 界定 : 
p= tr(L), (5.9) 
这 里 tr(L) 表示 矩阵 L 的 迹 , 即 其 对 角 线 元 素 之 和 . 在 非 参 数 回归 中 , 参数 的 个 数 
将 被 有 效 自 由 度 (effective degrees of freedom) 所 取代 , 它 将 通过 类 似 于 (5.9) 的 方程 
来 定义 . 
给 定 任意 的 z = (z1,…,zp)T, 能 写 


(2) = (zjTY = Laem, (5.10) 
i=1 
这 里 ， 
zz)T = 27 (XTX) XT. 
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o 的 一 个 无 偏 估计 为 


Er -f (z:)}? 
= nE, (5.11) 


下 面 , 将 构造 7(z) 的 置信 带 . 想 要 找到 函数 对 a(z)，b(z), 使 得 


Gs 


P(a(z) < r(x) < blz), 对 所 有 的 £ 成立) > 1 一 a. (5.12) 


HY F(x) = Yla) E 


i=1 


V(Fn(«)) = 0? Ye) = 07 ||e(a)||?. 


i=l 
这 意味 着 对 于 某 个 常数 c, 用 下 面 形式 的 置信 带 : 
I(x) = (a(z), b(z)) = (F(z) — B|€(a)||, Palæ) + clle). (5.13) 


可 以 在 Scheffé (1959) 中 找到 下 面 定理 . + Fpn-p 表示 一 个 随机 变量 , 它 有 自由 度 
ApH n-p 的 FAH. 令 Faip,n-p 为 该 随机 变量 的 上 a 分 位 点 , 即 Pp n-p > 
Fuipn-p) = & 

5.14 定理 ”在 (5.13) 中 定义 的 置信 带 在 c= VpFapn-p 时 满足 (5.12). 

当 那 些 Y, 不 连续 时 , 通常 的 线性 回归 可 能 不 合适 . 例如 , BE Y: © {0,1}. 这 
时 , 一 个 常用 的 参数 模型 为 logistic 回归 模型 , 它 的 形式 为 

F hiza 
pi = p:(8) = PY; =1) = =a (5.15) 
Tta" 

如 先前 一 样 , 要 求 对 所 有 的 i, 有 za = 1; RLU TREN. 这 个 模型 说 明 , Y 是 
一 个 均值 为 p; 的 Bernoulli 随机 变量 . 参数 6 = (B1,…,Bp) 通常 用 最 大 似 然 法 
估计 . 回顾 一 下 , 如 果 Y ~ Bernoulli(p), 那么 它 的 概率 函数 为 P(Y = y) = fly) = 
pY(L—p)!-¥. 于 是 , 对 于 模型 (5.15) 的 似 然 函数 为 


£(8) = [Er¥ 0 — pi) (5.16) 
i=1 


最 大 似 然 估计 B = (B, Bp)” 是 无 法 用 封闭 形式 找到 的 . 但 是 , 有 一 个 迭代 方法 ， 
称 为 重复 加 权 最 小 二 乘 (reweighted least squares) 法 , 其 运作 描述 如 下 : 
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重复 加 权 最 小 二 乘法 
选择 初始 值 B = (所,…, 记 )T， 并 对 于 i = 1,…,n, 利用 方程 (5.15) 计算 pi 把 
B 用 目前 的 估计 房 RE RARE RAR, 直到 收敛 . 


(1) 设 
Pi Yi - pi : 
Zi = log | —— } + =1,.…,n. 
; e(r) pa-p) TSU 


(2) 令 6 的 新 估计 为 


B=(XTWX)'XTWZ, 


RE, W 为 对 角 线 矩 阵 , 其 第 (i,i) 个 元 素 等 于 pi(1 一 pi). 这 相应 于 作 儿 在 XX 
上 的 一 个 (加 权 ) 线性 回归 . 
(3) 以 目前 的 B 估计 , 利用 (5.15) 计算 那些 pi 


Logistic 回归 和 线性 回归 是 称 为 广义 线性 模型 (generalized linear model) 的 一 
类 模型 的 特例 . 其 细节 参见 McCullagh and Nelder (1999). 


5.2 ”线性 光滑 器 


正如 早先 提 到 的 , 本 章 的 所 有 非 参数 估计 都 是 线性 光滑 器 . 正式 定义 如 下 : 


5.17 定义 ”如 果 对 于 每 个 z, 存在 一 个 向 量 &(z) = (Ci(z),……En(z))T， 使 得 了 
的 一 个 估计 


a(z) = aly, (5.18) 
i=1 . 


则 估计 n 为 一 个 线性 光滑 器 (linear smoother). 
定义 拟 合 值 (fitted value) 向 量 为 


r = (Fa (21), ,F(zn)T. (5.19) 
BY =i YA 
r=LyY, (5.20) 


这 里 , 工 为 一 个 nxn 的 矩阵 , 其 第 i TA Lla)" 这 样 Ly = 4j(zi). 第 i 行 的 元 素 
显示 了 在 形成 估计 ml) 时 给 予 每 个 Y: 的 权重 . 
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5.21 定义 ”矩阵 L 称 为 光滑 矩阵 (smoothing matrix) 或 者 帽子 矩阵 (hat ma-| 
trix). 工 的 第 i1 行 称 为 估计 7(zi) 的 有 效 核 (effective kernel). 类 似 于 (5.9), HFA 
来 定义 有 效 自 由 度 (effective degrees of freedom): 


v = tr(L). (5.22) 


警告 ! 读者 不 应 该 把 形 为 (5.18) 的 线性 光滑 器 与 线性 回归 混淆 起 来 ; 后 者 假定 
回归 函数 r(x) 是 线性 的 . 
5.23 说 明 ”将 要 使 用 的 所 有 光滑 器 的 权重 都 有 下 面 性 质 : 对 所 有 z,》) Gle) = 


1. 这 意味 着 光滑 器 保持 常数 曲线 不 变 , 即 如 果 对 所 有 证 Yi = c, WA Ala) = c. 
5.24 例 (回归 直方 图 ) 假定 a < z; <b, i=1,---,n. 把 (a,b) 划分 为 m 个 等 
BERM, 用 Bi, Ba,…, Bm 表示 . EN Pala) 为 
fala) =f L Y, 对 于 ze 了 Bi (5.25) 
J isziEBi 
这 里 , kj 为 在 B; 的 点 数 ， 换 言 之 , 估计 ma 是 一 个 阶梯 函数 ， 它 是 由 在 每 个 箱 
的 Yi 平均 而 得 ,该 估计 称 为 回归 直方 图 (regressogram)， 图 4.6 给 出 了 一 个 例子 . 
对 于 z € Bj, WR x € Bj, 则 定义 li(z) = 1/k;, BM, 定义 Li(z) = 0. 这 样 ， 


Pale) = D> Yili(z). 权 向 量 C(x) 的 形式 为 
i=l 


EEN git see: EAE: E E, 
Ka = (0,0,110, ye E010). 


为 了 看 光滑 矩阵 像 什么 样子 , 假定 n = 9, m = 3 及 ky = k = ks = 3, WIERE 


有 形式 
0 0 
0 0 
0 0 
0 0 
00 |. 
0 0 
11 
ita 
11 
BE. 箱 宽 


一 般 来 说 , 很 容易 看 到 , 有 v= tr(L) =m 个 有 效 自由 度 . h= (b—a)/m 控制 
了 估计 的 光滑 程度 . m 


x 
eccocoren 
coco otOrF rm 
coocooORHFe 
coc OFRHFHGQ Oo 
orrreece= 
ooreFroco 
Si — i) 


>o 
© 
o 
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5.26 例 ( 局 部 平均 ) 固定 疡 > 0, 并 令 Bs = {i: |zi 一 z| <h} On, WE B, 
的 点 数 . 对 于 任意 满足 nz > 0 的 zx, 定义 


fn(a)=> So Yi 


T i€Bz 


这 是 r(z) 的 局 部 平均 估计 (local average estimator), 是 很 快要 讨论 的 核 估计 的 一 个 
特例 ， 这 时 , Ae) = 》 Yita), 这 里 , 如 果 |zi 一 z| < h, 则 Gle) = 1/nz, 否则 
Gila) = 0. 作为 一 个 简单 例子 , BE n= 9, z = i/9 B h = 1/9, 则 


1/2 1/2 0 0 0 0 
1/3 1/3 1/3 0 ù 0 
0 1/3 1/3 1/3 0 0 
0 0 1/3 1/3 1/3 0 
1/3 1/3 1/3 
0 1/3 1/3 1/3 0 
0 1/3 1/3 1/3 0 
0 0 0 1/3 1/3 1/3 
0 0 © oO yy 


0 
0 
0 
0 
0 


coooo oO 
coco oce 


° 
oo So eo © 


5.3 选择 光滑 参数 


将 要 用 的 光滑 器 依赖 于 某 光滑 参数 h, 而 且 需 要 某 种 选择 h 的 方法 , 如 在 第 4 
章 那 样 , 定义 风险 ( 均 方 误差 ) 为 


R(h) =E (2 > me- ro (5.27) 
理想 的 情况 是 , 希望 选择 使 R(h) 最 小 的 h. 但 是 R(h) 依赖 于 未 知 的 函数 >(z). 作 
HAR, 将 使 R(A) 的 估计 Rn) 最 小 . 作为 最 初 的 猜测 , 可 能 使 用 平均 残 差 平方 和 ， 
又 称 为 训练 误差 (training error) 


2 SK - Ae? (5.28) 
i=l 


来 估计 RA). 结果 发 现 , 这 是 R(h) 的 一 个 不 好 的 估计 : 它 是 向 下 偏 的 , 而 且 通 常 导 
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BRIM (过 拟 合 ) 原因 在 于 利用 了 数据 两 次 一 次 估计 函数 一 次 估计 风险 . 选 
择 函 数 估计 是 为 了 使 (Yi — Fale)? AD, 因此 这 倾向 于 低估 了 风险 . 

利用 下 面 定义 的 伟 一 交叉 验证 得 分 来 估计 风险 . 

5.29 定义 ” 缺 一 交叉 验证 得 分 (leave-one-out cross-validation score) 定 义 为 


CV = R(h) = $M -Rae ; (5.30) 


RE, P-o ARAR i DRA (oi, Yi) 时 所 得 到 的 估计 . 
上 述 的 定义 5.29 是 不 完全 的 . 没有 说 元 _;) 的 确切 意义 是 什么 . 将 定义 


Kaz) = DVL), (5.31) 
j=l 
这 里 ， 
0, j= 
65-0 () = &(z) | (5.32) 
j(i) DAEN j+i i, 


kži 
换 句 话说 , 在 ri 那 一 点 放 的 权 数 为 0, 并 且 重新 正则 化 其 他 的 权 数 使 它们 的 和 
为 1. 对 于 本 章 所 有 的 方法 ( 核 回归 , 局 部 多 项 式 , 光滑 样 条 ), 关于 Ry 的 这 个 形 
式 实际 上 能 够 作为 相应 方法 的 性 质 来 导出 , 而 不 是 一 个 定义 的 问题 . 但 是 , 作为 一 
个 定义 来 处 理 则 更 简单 一 些 . 
下 面 描述 交叉 验证 的 直观 意义 . HER, 


EUY; — Fa (wi)? =E(Y; — r(2s) +r(zi) — Fy (@i))? 
=0? + E(r(ai) - Fn (ai))? 
x0? + E(r(z:) — Fa(ci))?, 
并 且 因此 , 根据 (4.15), 
E(R) © R+ 0? = 预测 性 风险 . (5.33) 


这 样 , 交叉 验证 得 分 是 风险 的 几乎 无 偏 估计 . 
着 起 来 计算 Rh) 可 能 很 费时 间 , 这 是 因为 每 次 去 掉 一 个 观测 值 都 要 重新 计算 
估计 . 幸运 的 是 , 对 于 线性 光滑 器 , 有 一 个 走 捷径 计算 Rh) 的 公式 . 
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5.34 定理 令 信 为 一 个 线性 光滑 器 , 那么 缺 一 交叉 验证 得 分 Rh) 能 够 写成 


Rn = 3 Ae = Ze) ; (5.35) 


这 里 , Lu = li(zi) 是 光滑 矩阵 工 的 第 i 个 对 角 线 元 素 . 
此 可 以 用 最 小 化 R(h) 来 选择 光滑 参数 h. 
警告 ! 不 能 假定 Ah) 总 有 一 个 定义 明确 的 最 小 值 . 应 该 总 是 做 出 Rh) 作为 h 
的 函数 的 点 图 . 
如 果 不 去 做 交叉 验证 得 分 的 最 小 化 , 另 一 种 方法 是 利用 其 近似 , 称 为 广义 交叉 
验证 (generalized cross-validation)@, 这 里 , 方程 (5.35) 中 的 每 个 Lu 都 替换 成 它 的 
平均 n-!1》 Lu = v/n, W v = tr(L) 为 有 效 自由 度 . 这 样 将 最 小 化 下 式 : 


isl 


1 忆 [K Fala]? 
GCV( = >D TEA | (5.36) 
通常 , 使 广 义 交叉 验证 得 分 最 小 的 带宽 接近 于 使 交叉 验证 得 分 最 小 的 带宽 . 

利用 近似 (1 一 z)-! = 1+ 2z, 可 以 看 到 


2v0? 
n 


GVA EDN -Ra + Z = cy (537) 
i=l 


这 里 , 6? =n Fr). 方程 (5.37) 被 称 为 Cp 统计 量 @， 它 最 初 是 由 Colin 
i=l 

Mallows 作为 线性 回归 变量 选择 的 一 个 准则 提出 的 . 更 一 般 地 , 对 于 En, h) 的 不 同 

选择 , 许多 通常 的 带宽 选择 准则 能 够 写成 


B(h) = E(n,h) x 2 Èr — Palai), (5.38) 


详 见 Härdle et al. (1988). 再 者 , 在 适当 的 条 件 下 , Härdle et al. (1988) 证 明了 下 面 的 

关于 使 B(h) 最 小 化 的 包 的 一 些 结果 . 令 ho 使 得 损失 L(h) = n Fa (ws) —r(@a)]? 
ia 

最 小 , 而 且 令 ho 使 风险 最 小 化 . 那么 , MAR h, ho 及 ho 都 以 n-1/5 的 速率 趋 于 


@ 广义 交叉 验证 有 某 种 缺 一 交叉 验证 所 不 具有 的 不 变性 质 . 然而 在 实践 中 , 这 两 者 通常 类 似 . 
© 实际 上 , 这 并 不 是 确切 的 Cp AR. 通常 使 用 (5.86) 作为 对 o? 的 估计 . 
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0. WEA, 对 于 某 些 正常 数 C1, C2,01,02， 
nO — ho) > N(0,02) PE( 人 一 ERo] 一 Cox， 


n3/10(hg — ho) > N(0,03), nlL(ho) — L(ho)] ~ C2x?. 
这 样 , R 的 相对 收敛 率 为 


和 n3/10 -i 
To = Op (Ss n175 ) = 0Op(n™™™)}). 


这 个 缓慢 的 收敛 率 表明 估计 带宽 是 困难 的 . 该 收敛 率 本 质 上 是 带宽 选择 的 问题 , 因 
为 下 式 也 成 立 ; 
加- OP (Sr) = Op(n7"/19). 


nis 


5.4 局 部 回归 


现在 转向 局 部 非 参 数 回归 . 假定 ri e R 为 标量 , 并 考虑 回归 模型 (5.1), 这 一 
节 考虑 由 Y: 的 加 权 平均 而 得 的 r(z) 的 估计 ; 它 对 于 接近 z 的 点 给 以 较 高 的 权重 . 
以 核 回 归 估计 开始 . 


5.39 定义 ” 令 h>0 为 一 个 正 数 , 称 为 带宽 (bandwidth). Nadaraya-Watson 
核 估 计 定 义 为 , 
F(x) = Sac) (5.40) 


RE, K 是 一 个 核 (定义 在 4.2 节 ), 而 权重 Go) 由 下 式 给 出 : 


Li(z) = (5.41) 
z) 


j=l 


5.42 说 明 Bi 5.26 中 的 局 部 平均 估计 是 一 个 基于 boxcar 核 的 核 估计 . 

5.43 例 (CMB 数据 ) 回忆 图 5.1 的 CMB 数 据 . 图 5.2 显示 了 基于 递增 带宽 
的 四 个 不 同 核 回归 拟 合 ( 仅 利用 头 400 个 数据 点 ). 上 面 两 个 小 图 基于 小 的 带宽 , 拟 
SKA. 右 下 小 图 是 基于 大 的 带宽 , 拟 合 太 光 滑 . 下 左 小 图 刚 合 适 . 下 右 图 还 显 
示 了 接近 边界 时 存在 偏 倚 . 正如 将 要 看 到 的 , 这 是 核 估计 的 一 个 通常 特征 . 图 5.3 
下 面 的 图 显示 了 对 所 有 数据 点 的 一 个 核 拟 合 . 带宽 是 按照 交叉 验证 选取 的 . 


5.4 局 部 回归 .59 . 


0 200 400 0 200 400 
多 极 矩 SBE 


图 5.2 MAAK 400 个 数据 点 的 对 于 CMB 数据 的 四 个 核 回归 
所 用 的 带宽 为 h= 1( 左 上 ), h = 10( 右 上 ), h = 50( 左 下 ), h = 200( 右 下 ). 当 带 宽 递增 时 , 被 估计 函数 从 太 
粗糙 到 太 光滑 变化 


CV 得 分 


26 28 30 
有 效 自由 度 v 


10004 : 
0 400 800 
SE 
图 5.3 上 小 图 : 作为 有 效 自由 度 的 一 个 函数 的 交叉 验证 (CV) 得 分 . 下 小 图 : 利用 使 交叉 验证 
得 分 最 小 的 带宽 的 核 拟 合 - 


KK 的 选择 并 不 是 太 重要 的 .用 不 同 的 核 所 得 到 的 估计 在 数值 上 非常 类 似 . 
这 个 现象 被 理论 上 的 计算 所 证 实 ， 这 表明 风险 对 于 核 的 选择 是 很 不 敏感 的 , 参见 
Scott (1992) 的 6.2.3 节 . 将 在 例子 中 经 常 利 用 tricube 核 . 重要 得 多 的 是 带宽 的 
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选择 , 它 控制 了 光滑 的 程度 . 小 的 带宽 给 出 很 粗糙 的 估计 , 而 大 的 带宽 给 出 较 光 滑 
的 估计 . 一 般 让 带宽 依赖 于 样本 量 , 因此 有 时 把 它 记 为 hn- 
下 面 的 定理 表明 带宽 如 何 影响 估计 . 为 了 叙述 这 些 结果 , 需要 对 于 zl ……，,zn 
HE n 增加 时 的 性 质 做 某 些 假定 . 为 了 定理 的 目的 , 将 假定 这 些 观 测 值 是 从 某 密度 f 
随机 抽取 的 . 

5.44 定理 ”Nadaraya-Watson 核 估 计 的 风险 (利用 积分 的 平方 误差 损失 ) 为 
4 hn 0 K nhn 一 oo if, 


Ras) =} [ f 2K (a) f K trat] as 


0? f edz 1 
ae ja” + o(nhz1) + o(h’). (5.45) 
式 (5.45) 的 第 一 项 是 平方 的 偏 倚 , 而 第 二 项 是 方差 . 特别 值得 注意 的 是 在 偏差 
项 中 的 四 
T, 


ORTO (5.46) 


称 (5.46) 为 设计 偏 傈 (design bias), 因为 它 依赖 于 设计 , 即 z: 的 分 布 . 这 意味 着 偏 傈 
对 那些 z; 的 位 置 敏感 . 此 外 , 能 够 表明 , 核 估计 在 接近 边界 处 还 有 高 偏 倚 . 这 就 是 
所 谓 边 界 偏 倚 (boundary bias). 将 看 到 , 能 够 利用 称 为 局 部 多 项 式 回归 的 改进 来 减 
少 这 些 偏 倚 . 

如 果 对 (5.45) 微分 , 并 使 它 为 0, 发 现 最 优 带宽 h, 为 


1/5 
i g” o? f K%a)ae f az/s(2) 
e 5, 7 7 z 
i | J maoda] J Fo Me ”| dz 
这 样 , h。 = O(n-15). 把 h. ARE (5.45), 看 到 风险 以 速率 O(n-4/5) 递减 . 在 (BBO 
参数 模型 中 , 最 大 似 然 估 计 的 风险 以 速率 1/n 递减 到 0. 较 慢 的 速率 n-4/5 是 利用 
非 参 数 方法 的 代价 . 实践 中 , 不 能 利用 (5.47) 给 出 的 带宽 , 因为 h, 依赖 于 未 知 函 数 
r. 作为 替代 , 利用 在 定理 5.34 中 描述 的 缺 一 交叉 验证 . 
5.48 P) 图 5.3 表示 了 对 CMB 例子 的 交叉 验证 得 分 , 它 是 有 效 自 由 度 的 一 
个 函数 . 根据 使 该 得 分 最 小 化 来 选择 最 优 光 滑 参数 . 结果 的 拟 合 显示 在 图 中 . HER, 
拟 合 在 右边 相当 不 稳定 . 稍 后 将 对 付 非常 数 方差 , 并 对 拟 合 加 上 置信 带 - [ 
局 部 多 项 式 、 核 估计 因 边界 偏 倚 和 设计 偏 倚 而 不 足利 用 称 为 局 部 多 项 式 回 
归 (local polynomial regression) 的 核 回归 的 一 个 推广 则 可 以 减轻 这 些 麻烦 . 


(5.47) 


5.4 局 部 回归 :61 ， 


为 了 了 解 这 个 估计 的 动机 , 首先 考虑 选择 一 个 估计 量 a= F(x) 来 使 得 平方 和 
DOY: -a 最 小 . 解 是 常数 函数 向 (z) =Y; 它 显然 不 是 r(z) 的 一 个 好 的 估计 . 现 


在 定义 权 函数 wi(z) = K((z; — 2)/h), 并且 选 择 0 = F(a) 来 使 得 下 面 的 加 权 平 方 
和 (weighted sum of squares) 最 小 : 


ld) 一 0)2. (5.49) 
i=l 
由 初等 微 积分 , 看 到 , 解 为 
Dwi(z)Y 
mala) = E 5 
YL wz) 
i=l 


它 刚好 是 核 回归 估计 . 这 给 了 关于 核 估 计 的 一 个 有 意思 的 解释 : 它 是 由 局 部 加 权 最 
小 二 乘 得 到 的 局 部 常数 估计 . 

这 意味 着 利用 一 个 p 阶 的 局 部 多 项 式 (local polynomial) 而 不 是 一 个 局 部 常数 
就 可 能 改进 估计 . > z 为 在 其 上 想 要 估计 r(z) 的 某 固定 值 . 对 于 在 z 一 个 邻 域 中 
的 值 u, 定义 多 项 式 


Pa(usa) = ao talu -D+ ++ Blua). 6550) 


能 够 在 目标 值 z 的 一 个 邻 域 用 下 面 的 多 项 式 来 近似 一 个 光滑 回归 函数 r(u) : 
r(u) = Ps(u;a). (5.51) 
选择 使 下 面 局 部 加 权 平 方 和 最 小 的 & = (G0,… ,Gp)T 来 估计 a = (ao, ++, ap) : 
E wi(z)[Yi — Pe (Xi; a)}?. (5.52) 
= 
估计 a 依赖 于 目标 值 z. 如 果 想 突出 这 个 依赖 关系 , WE a(x) = (Go(z),---,Gp(x))?. 
r 的 局 部 估计 为 


Falu) = Pr(u;@). 
特别 地 , 在 目标 值 <= r, 有 
Falz) = Pe(x;@) = Go(z). (5.53) 


警告 ! BR mla) 仅仅 依赖 于 ao(z), 这 并 不 等 价 于 简单 地 拟 合 一 个 局 部 常数 . 
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令 p=0, 则 回 到 核 估计 . Æ p= 1 时 的 特殊 情况 称 为 局 部 线性 回归 (local linear 
geression), 而 且 这 是 我 们 推荐 的 一 个 默认 选择 的 版 本 .正如 下 面 将 会 看 到 的 , 局 部 
多 项 式 估计 , 特别 是 局 部 线性 估计 , 有 某 些 值得 注意 的 性 质 ; 这 些 性 质 被 Fan (1992), 
Hastie and Loader (1993) 给 出 . 许多 下 面 的 结果 都 来 自 这 些 文章 . 

为 了 有 助 于 求 Gz), 重新 以 向 量 的 记号 来 表述 这 个 问题 . 令 


on P 

E T (20) 
M2 
i P 

1 GEO 

X:= p: : (5.54) 

ane P 

1 Inos + os 


并 且 令 We 为 n x n WAHRER, 其 第 (i,i) 元 素 为 ww(z)， 能 够 重新 把 (5.52) 
写成 


(Y — Xza) Wa(Y — Xza). (5.55) 
使 (5.55) 最 小 化 , 得 到 加 权 最 小 二 乘 估计 
a(z) = (X7W.X2)'XIW2Y. (5.56) 


特别 地 , Faw) = io(z) 是 (XWX) XIW: 的 第 一 行 和 Y 的 内 积 . 于 是 ， 
有 


5.57 定理 ”局 部 多 项 式 回归 估计 为 
a(z) = 和 ear， (5.58) 
i=1 


这 里 , L(x)" = (& (2), -++ , En(2)), 
4L(z) = ef (XE Ws Xs) XI Wz, 
el = (1,0,---,0)7, 而 Xz 和 Ws 定义 于 (5.54). 这 个 估计 有 均值 


EGn(2)) = D> &(@)r(a) 


i=l 


及 方差 n - 
V(Pn(z) = 0? 》 > G(x)? = ° lea). 
zi 


估计 再 一 次 是 一 个 线性 光滑 器 , 而 且 能 够 通过 使 定理 5.34 所 给 的 交叉 验证 公 
式 最 小 来 选择 带宽 . 


5.4 局 部 回归 + 63- 


5.59 例 (LIDAR) 这 些 数据 是 在 例 4.5 中 引进 的 . 图 5.4 显示 了 221 个 观测 . 


左上 小 图 显示 了 


数据 及 利用 局 部 线性 回归 的 拟 合 函数 . 交叉 验证 曲线 (没有 显示 ) 


HE h = 37 有 明确 的 最 小 值 , 相应 于 9 个 有 效 自由 度 . 该 拟 合 函数 使 用 了 这 个 带宽 . 
右上 小 图 显示 了 残 差 ; 有 很 明显 的 异 方差 性 (非常 数 方差 ). 左下 小 图 显示 了 对 o(z) 


的 估计 , 这 里 利用 了 5.6 节 的 方法 (用 交叉 验证 选择 了 = 146). FH, 利用 5.7 节 
的 方法 来 计算 95% 置信 带 . 右 下 小 图 给 出 了 结果 的 置信 带 . 如 预期 的 一 样 , 对 于 大 
的 协 变量 的 值 , 有 大 得 多 的 不 确定 性 . 
,| 要 
w 
最 -06 
R 
-1.0 7 
400 500 600 700 400 500 600 700 
范围 范围 
0.104 
Ry -02 
* 
5 0.054 = se 
R 
ON ee T, 
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范围 | 


上 左 : 数据 及 利用 局 部 


图 5.4 例 5.59 的 LIDAR 数据 
线性 回归 的 拟 合 函数 ,使 用 ha 37( 由 交叉 验证 选择 ). 上 右 : 残 差 . FE: a(z) 的 估 
计 . FA: 95% BMA. 


5.60 定理 


局 部 线性 光滑 
4 p=1Frlz) = >》 4(z)Yi, RE, 
i=1 


ba) =, 
Lae) 
j=l 


4-2 


bia) = (EE) Brat) ~ (es —2)5q(2) (5361) 


Snj(z) = >) K (==) (zi— 5)i, j=1,2. 
i=1 
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5.62 例 5.5 显示 了 对 CMB 数据 的 局 部 回归 , 这 里 p= 0 及 p=1. 下 面 
两 小 图 放大 了 左边 界 . 注意 , 对 于 p = 0( 核 估计 ), 由 于 边界 偏 倚 , 拟 合 在 边界 附近 
很 差 . 


50004 
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200 400 0 200 400 


1500: 


pian °° 
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5.5 利用 p=0( 上 左 ) M p= 1( 上 右 ) 阶 的 局 部 多 项 式 的 局 部 加 权 回 归 
下 面 的 图 更 详细 地 显示 了 左边 界 (下 左 : p = 0, 下 右 : p = 1). 注意 , 使 用 局 部 线性 回归 (p = 1) 减少 了 边 
界 偏 倚 . 


5.63 例 (Doppler 函数 ) 令 
r(z) = Vz(1 一 7) sin (z 2) ，0<z<k1. (5.64) 


它 称 为 Doppler BR. 这 个 函数 很 难 估计 , 因而 提供 了 对 非 参 数 回归 方法 的 一 个 很 
好 的 检验 案例 .该 函数 在 空间 上 非 齐 次 ; 这 意味 者 其 光滑 程度 (二 阶 导数 ) 随 着 z 
变化 . 该 函数 显示 在 图 5.6 的 上 左 小 图 . 上 右 小 图 表示 了 1000 个 数据 点 , 它们 是 根 
HY, = r(i/n) + oei 模拟 而 来 的 , 这 里 o = 0.1 及 e ~ N(0,1). 下 左 小 图 显示 了 使 
用 局 部 线性 回归 时 交叉 验证 得 分 对 有 效 自由 度 的 点 图 . 在 166 个 自由 度 的 最 小 值 
相应 于 0.005 的 带宽 . 拟 合 函数 显示 在 下 右 小 图 . 该 拟 合 有 较 高 的 有 效 自由 度 ， 
此 拟 合 函数 波动 很 大 . 这 是 因为 估计 试图 拟 合 函数 在 > = 0 附近 的 快速 波动 . 如 果 
要 更 光滑 些 , 右边 的 拟 合 将 会 看 上 去 好 些 , 但 这 是 以 在 z = 0 附近 失去 结构 为 代价 
的 . 这 在 对 空间 非 齐 次 函数 做 估计 时 总 是 个 问题 . 将 在 第 9 章 讨论 小 波 时 作 进 一 步 
讨论 . m 

下 面 的 定理 给 出 了 局 部 线性 估计 的 风险 的 大 样本 性 质 , 并 表明 局 部 线性 回归 为 
什么 比 核 回归 要 好 . 证 明 可 以 在 Fan (1992), Fan and Gijbels (1996) 找到 . 
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图 5.6 ”由 局 部 回归 估计 的 Doppler 函数 
上 左 : 该 函数 , 上 右 : 数据 , 下 左 : 交叉 验证 得 分 对 有 效 自由 度 , FH: 拟 合 函数 . 


5.65 定理 对 于 i=1,…,n 及 a < Xi <b, 4$ Y: = r(X:) 十 o(Xi)ei. 假定 
Xi) Xn 是 来 自 具有 密度 S 的 分 布 的 一 个 样本 , 而 且 (i) f(a) > 0; ad fir" Ro? 
ae 的 一 个 邻 域 连 续 ; (iii) hn 一 0 及 nhn 一 00. $ x € (a,b). 给 定 Xis Xm A 
下 面 的 结论 : 局 部 线性 估计 和 核 估 计 两 者 都 有 方差 


z o j K?(u)du + op (去) . (5.66) 


Nadaraya-Watson 核 估计 有 偏 倚 


h? ro + Larta] feroa + op(h?), (5.67) 
而 局 部 线性 估计 有 渐 近 偏 倚 
ml wwf u?K (u)du + op(h?). (5.68) 


这 样 , BRE PIT AR. 在 边界 点 a 和 b, Nadaraya-Watson 核 估计 有 
hn 阶 的 渐 近 偏 傅 , 而 局 部 线性 估计 有 ha 阶 的 偏 倚 . 在 这 个 意义 上 , 局 部 线性 估计 
减 小 了 边界 偏 倚 - 

5.69 说 了 明 ”上 面 结果 更 一 般 地 对 p 阶 局 部 多 项 式 成 立 . HER p 为 奇数 会 减 
少 设计 偏 倚 和 边界 偏 倚 , 而 不 增加 方差 . 
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5.5 惩罚 回归 , 正则 化 和 样 条 


再 次 考虑 回归 模型 
Yi = r(x) 十 ep 
并 假定 用 使 得 平方 和 
DOY - Fale)? 
i=1 


BUEN Fala) 来 估计 r. 在 所 有 的 线性 函数 ( 即 形 为 Be + Piz 的 函数 ) 中 使 其 最 小 则 
产生 最 小 二 乘 估计 . 在 所 有 函数 中 使 其 最 小 则 产生 该 数据 的 一 个 内 插 函 数 . 在 前 一 
节 中 , 用 局 部 加 权 的 平方 和 而 不 是 平方 和 而 回避 了 这 两 个 极端 的 解 . 另 一 种 得 到 这 
两 个 极端 情况 之 间 的 解 的 方式 为 使 得 下 面 的 惩罚 平方 和 (penalized sum of squares) 
最 小 : 


M(d) = DY — Falzi)? + I(r), (5.70) 


这 里 , U(r) 为 某 粗 糙 惩 罚 (roughness penalty)， 对 和 欲 优化 的 准则 加 一 个 惩罚 项 的 作 
法 有 时 称 为 正则 化 (regularization). 

下 面 将 着 重 考虑 
I(r) = Yd [zjjzdz (5.71) 


的 特殊 情况 . 参数 和 控制 了 在 拟 合 (5.70 的 第 一 项 ) 和 惩罚 之 间 的 平衡 . 令 FR, 表示 
使 MO) 最 小 的 函数 . 当 = 0 时 , 解 为 内 插 函 数 . 当 入 一 co 时 , Pa 收敛 到 最 小 二 
RAR. 参数 d 控制 了 光滑 程度 . 当 0 < 和 < co 时 , Fh, 又 像 什 么 呢 ? 为 了 回答 这 个 
问题 , 需要 定义 样 条 . 

一 个 样 条 是 一 个 特别 的 逐 段 多 项 式 @， 最 常用 的 样 条 是 逐 段 三 次 样 条 . 


5.72 定义 Fae- < 为 包 售 在 菜 区 间 (a0) 中 的 一 组 排序 了 的 | 
A, 称 为 结 点 (knot). 一 个 三 次 样 条 (cubic spline) 为 一 个 连续 函数 7, 使 得 (i) > 是 
一 个 在 (€1,&2),… 诸 区 间 上 的 三 次 多 项 式 ; (ii) 7 在 结 点 上 有 连续 的 一 阶 和 二 阶 导 
数 . 更 一 般 地 , 一 个 M 阶 样 条 (Mih-order spline) 为 一 个 逐 段 M 一 1 阶 多 项 式 , 在 
结 点 有 M 一 2 阶 连续 导数 . 一 个 在 边界 点 外 为 线性 的 样 条 称 为 自然 样 条 (natural 


spline). 


三 次 样 条 (M = 4) 为 实践 中 最 常用 的 样 条 .它们 自然 地 出 现在 惩罚 回归 的 杠 
架 中 , 正如 下 面 定理 所 表明 的 . 


O 关于 样 条 的 细节 , 参见 Wahba (1900). 


5.5 SHEH, 正则 化 和 样 条 “67， 


5.73 EE RAAEN (5.71) 的 MO) 最 小 的 函数 全.(z) 是 一 个 结 点 在 数据 
点 的 自然 三 次 样 条 . 估计 量 Ta 称 为 一 个 光滑 样 条 (smoothing spline). 

上 面 定理 没有 给 出 六 的 一 个 显 式 . 为 此 , 将 为 这 一 组 样 条 构造 一 个 基 . 

5.74 定理 44 <& << i 为 包含 在 某 区 间 (a,b) PHAR. 对 j= 
5,79, k +4, 定义 hi(z) = 1, ho(x) = z, ha(x) = 2, ha(z) = 23, h(x) = (a — &~4)3. 
函数 {hi hes} 形成 在 这 些 结 点 的 一 组 三 次 样 条 的 一 个 基 ， 称 为 被 截 的 指数 
基 (truncated power basis). 于 是 , 任何 有 这 些 结 点 的 三 次 样 条 r(z) 能 够 写成 


k+4 


r(z) = 》 Byhs (a). (5.75) 
j=1 


现在 对 这 组 自然 样 条 引进 一 个 不 同 的 基 , 称 为 B 样 条 基 (B-spline basis), 它 特别 
适合 于 计算 . 它们 定义 如 下 : 
S io =a 及 fey =b. 现 在 定义 新 结 点 ni,… ,TM 使 得 


T S T2 S T3 S S Tm <S Eo, 
并 且 对 于 了 = 1,…,k, Tj+M = 而 且 有 
Seta S THM+1 S +++ < Tk+2M- 


额外 结 点 的 选择 是 任意 的 ; 通常 取 n =…= TM = bo BH begs = Thema = = 
人 +2M: 如 下 递归 地 定义 基 函 数 . 首先 对 i= 1,---,k+ 2M 一 1, 定义 


Pa l, n LT< Tiy, 
"10, SW. 


然后 , 对 于 m < M, EMR i=1,---,k+2M—m, 


Bim = ——"*— Bim-—1 + 
Ti+m—1 — Ti Titm 一 Tit] 

如 果 分 母 为 0, 则 理解 为 函数 定义 为 0. 

5.76 定理 HK {Bia,i = 1 ,大 十 全 为 这 组 三 次 样 条 的 一 个 基 . 它们 称 
为 B 样 条 基 范 数 (B-spline basis function). 

B 样 条 基 函 数 的 优点 在 于 它 有 紧 支撑 , 这 使 得 计算 速度 加 快 . 细节 参见 Hastie 
et al. (2001). 图 5.7 表明 了 利用 9 个 在 (0, 1) 中 等 间隔 结 点 的 三 次 B 样 条 基 . 

现在 就 有 可 能 更 详尽 地 描述 样 条 估计 了 . 按照 定理 5.73, 人 为 一 个 自然 三 次 样 
条 . 因此 , 能 记 


Titm— T 


Bitim-1- 
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图 5.7 利用 9 个 在 (0, 1) 中 等 间隔 结 点 的 三 次 B 样 条 基 


N 
F(z) = $ Â;B;(2), (5.77) 


j=1 
RE, By, Bw 为 自然 样 条 (诸如 N =n+4 的 B 样 条 ) 的 一 个 基 , 这 样 , 仅 需要 
找 出 系数 B = (Ba, Bw)". 在 基 中 展开 r, 现在 能 够 把 最 小 化 重新 写成 


最 小 化 : (Y - BB)T(Y — BB) +6728, (5.78) 
这 里 ,By = B(X) 及 On = | Bia) BE (ade. 
5.79 定理 ”使 (5.78) 最 小 的 8 值 为 了 
B= (B™B+)2)"'BTY. (5.80) 


样 条 是 线性 光滑 器 的 另 一 个 例子 . 
5.81 定理 光滑 样 条 元.(z) 是 一 个 线性 光滑 器 , 即 存在 权 数 t(z), EA hla) = 


DYili(z). 特别 地 , 光滑 矩阵 工 为 
i=1 
L= B(B'B+A2)"'B", (5.82) 


并 且 拟 合 值 的 向 量 7 为 
r=LY. (5.83) 


如 果 已 经 作 了 Y 在 B 上 的 通常 回归 , 帽子 矩阵 将 为 L=B(B”B)-B", WA 
拟 合 值 将 内 插 观 测 数 据 . 在 (5.82) 中 的 AQ 一 项 的 效果 就 是 把 回归 系数 向 一 个 子 
空间 做 收缩 , 造成 较 光滑 的 拟 合 . 如 以 前 一 样 , 定义 有 效 自 由 度 为 v=tr(L), 而 且 选 
择 使 得 或 者 交叉 验证 得 分 (5.35) 或 者 广义 交叉 验证 得 分 (5.36) 最 小 的 光滑 参数 A. 


@ 如 果 你 熟悉 岭 回 归 ， 那 么 你 将 看 出 它 类 仪 于 岭 回归 . 


5.6 方差 估计 “69， 


5.84 例 图 5.8 显示 了 对 于 CMB 数据 使 用 交叉 验证 的 光滑 样 条 . 有 效 自由 
度 为 8.8. 该 拟 合 比 局 部 回归 估计 光滑 . 这 无 疑 在 视觉 更 吸引 人 人 , 但 是 比较 后 面 将 
要 计算 的 置信 带 的 宽度 , 这 两 种 拟 合 的 区 别 不 大 . 图 

Silverman (1984) 证 明了 样 条 估计 7, (2) 在 下 面 的 意义 上 是 渐 近 的 核 估计 : 


2 一 了 


1 
42) ~ he ( tea) 


5000. 


1000 


图 5.8 用 于 CMB 数据 的 光滑 样 条 . 光滑 参数 是 由 交叉 验证 选择 的 
这 里 , f(z) 为 (这 里 作为 随机 的 ) 协 变量 的 密度 ， 


.入 114 
"a= al ， 
及 8 
K(t)= zob- sia (4 + z) š 
另 一 个 利用 样 条 的 非 参 数 方 法 称 为 回归 样 条 方法 (regression spline method). 利 
用 较 少 的 结 点 , 而 不 在 每 个 数据 点 设置 结 点 . 然后 在 基 和 矩阵 B 上 作 通 常 的 没有 正 
则 化 的 线性 回归 .该 估计 的 拟 合 值 为 > = LY, 而 工 = B(B”B)-1BT. 这 个 估计 
和 (5.82) 的 区 别 在 于 基 矩 阵 B 是 基于 较 少 的 结 点 , 而 且 没有 收缩 因子 AP. 而 光滑 
的 程度 则 由 选择 结 点 的 数目 (和 位 置 ) 所 控制 . 利用 较 少 的 结 点 可 以 节省 计算 时 间 . 
Ruppert et al. (2003). 讨 论 了 这 些 样 条 方法 的 细节 . 


5.6 方差 估计 


下 面 考虑 几 个 估计 o 的 方法 .对 于 线性 光滑 器 , 有 一 种 简单 的 , 几乎 无 偏 的 
a? 的 估计 . 
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5.85 定理 47,(t) 是 一 个 线性 光滑 器 , + 
DY: - Fea? 
_ i=l 


n= Ww+y 


a? (5.86) 


> 


这 里 ， 


v =tr(L), 7 =tr(LTL) = > lle(z) |. 


‘=1 
BOR r 充分 光滑 , v= oln) RV = oln), 那么 G 为 o? 的 一 个 相合 估计 . 
现在 将 略 述 这 个 结果 的 证 明 . 回忆 , 如 果 Y 是 一 个 随机 变量 , 而 Q 是 一 个 对 
POEM, 那么 YTQY 称 为 一 个 二 次 型 (quadratic form), 而 且 大 家 都 知道 
E(YTQY) = tr(QV) + u™Qu, (5.87) 
这 里 V = V(Y) EY 的 协 方差 矩阵 , 而 p= E(Y) 是 均值 向 量 . 现在 ， 
Y-r=Y-LY=(I-L)Y, 
因而 ， 
P=, (5.88) 
这 里 4= (I - L)T(1- L). Bist, 


aa _ E(YTAY) rl Ar 
-O ER. 
Ee) a) Oo aa 


BÈ v 和 7 增长 得 不 太 快 ,而且 r 是 光滑 的 , 对 于 大 的 mw 最 后 一 项 很 小 ， 因 此 ， 
E(6?) ~ 07, 类 似 地 , 可 以 表明 VG?) 一 0. 
Rice (1984) 提供 了 另 一 个 估计 . 假定 z; 是 按 大 小 顺序 排 的 . 定义 
n-1 
= =a Eim- (5.89) 
i=l 


下 面 是 这 个 估计 的 动机 . 假定 r(z) 是 光滑 的 , 有 r(zi+i) — r(zi) ~ 0, 并 因此 


Yii — Yi = [r(ziti) 二 e+] — [r(wi) + €i] © eit1 — €i, 
进而 有 (Yin — Yi)? ~ 2. +? — erie. 因此 ， 


E(Yiss — Yi)? © E(e2, 1) + E() — 2E(G41)E() 
= E(2,,) + E(e?) =20?. (5.90) 
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这 样 , EE(32) ~ o2. Gasser et al. (1986) 对 该 估计 量 作 了 些 变化 , 为 


EA * 262, (5.91) 
n- 24S 


这 里 ， 
6; = iYi- + Yin — Yi, Qi = (Tit1 — Ti)/(Ti+1 — Ti-1), 
bi = (zi — zi-1)/(ti+1 — 2-1), c$ = (a? +b? +1) 


直观 上 , 这 个 估计 为 从 拟 合 直线 到 每 三 个 连贯 的 设计 点 的 第 一 和 第 三 点 的 残 差 平 
均 . 


5.92 例 “对 于 CMB 数据 的 头 400 个 观测 来 说 , 方差 看 上 去 大 体 上 是 个 常数 . 
利用 一 个 局 部 线性 拟 合 , 使 用 两 个 方差 估计 . 方程 (5.86) 产生 3? = 408.29, mae 
(5.89) 产生 G? = 394.55. 

BS, 假定 了 同方 差 性 (homoscedasticity), 意味 着 o? = V(ei) 不 随 着 z a 
在 CMB 例子 , 这 一 点 明显 地 不 成 立 ， 显然, o? 随 着 z 增加 , 这 样 数据 是 异 方差 
的 (heteroscedastic). 函数 估计 a(x) 相对 来 说 对 异 方 差 性 不 那么 敏感 . 然而 , 在 为 
7(z) 构造 置信 带 时 , 必须 考虑 到 非常 数 方差 . 

将 采取 下 面 方法 . 关于 其 他 方法 , 参见 Yu and Jones (2004) 及 其 参考 文献 , 假 
定 

Y; = r(ai) + o(ai)e, (5.93) 


令 Zi = log(Y; — r(z:))? Æ 5; = loge?, W) 
Zi = log(o2(zi)) + 6i. (5.94) 


这 意味 着 要 用 对 数 平方 残 差 在 z 上 作 回 归来 估计 logo? (2). 如 下 进行 : 


方差 函数 估计 
(1) 以 任何 非 参 数 方法 估计 r(x) 以 得 到 一 个 估计 量 7, (2). 
(2) 定义 Zi = log(Y; — F(ai))?. 
(3) 在 z; 上 对 2; 回归 (再 一 次 利用 任何 非 参数 方法 ) 以 得 到 logo? (a) 的 估计 
Ga), 并 令 
62(7) =e). (5.95) 


5.96 例 图 5.9 的 实 线 显示 了 对 CMB 例子 的 log5?(z). 利用 线性 估计 , 并 利 
用 交叉 验证 来 选择 带宽 . AP, 所 估计 的 最 优 带 宽 为 h = 42, 而 为 对 数 方差 所 估计 
的 最 优 带 宽 为 h = 160. 在 这 个 例子 中 , 有 c(z) 的 一 个 独立 估计 . 具体 地 说 , 由 于 测 
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量 过 程 的 物理 很 好 理解 , 物理 学 家 能 够 计算 出 o? 的 合理 精确 估计 . 这 个 函数 的 对 
数 在 图 上 由 虚线 表示 . Ë 

这 个 方法 的 一 个 缺陷 为 , 一 个 非常 小 残 差 的 对 数 将 是 一 个 大 的 离 群 点 . 另 一 个 
方法 是 直接 对 平方 残 差 进行 光滑 . 在 这 种 情况 , 可 以 拟 合 一 个 在 5.10 节 讨 论 的 那 
类 模型 . 因为 该 模型 没有 一 个 可 加 形式 , 误差 将 不 是 正 态 的 . 


log o%(x) 


0 400 800 
SRG 
图 5.9 ”点 为 对 数 平方 残 差 
实 线 为 作为 z 的 函数 估计 的 标准 方差 52(z) 的 对 数 . 虚线 表示 真实 o?(z) 的 对 数 , 它 是 通过 先 验 知识 已 知 
的 (到 合理 的 精确 度 ). 


5.7 E Ao W 
这 一 节 将 为 r(z) 构造 置信 带 . 通常 这 些 带 具 有 下 面 形式 : 
Fn(x) 士 cse(z)， (5.97) 


这 里 se(z) 是 F(x) 的 标准 差 的 一 个 估计 , 而 c > 0 是 某 个 常数 , 在 着 手 之 前 , 先 讨 
论 一 个 每 当做 光滑 时 出 现 的 一 个 致命 的 问题 , 即 偏 倚 问 题 . 
偏 倚 问 题 . 如 在 (5.97) 那样 的 置信 带 并 不 真正 是 r(z) 的 置信 带 ; 它们 实际 上 是 
你 认为 是 r(z) 的 光滑 版 本 的 fn(z) = E(f(z)) 的 置信 带 . 由 于 马上 要 解释 的 理由 ， 
得 到 真实 函数 r(z) 的 一 个 置信 集 是 复杂 的 . 
FT n(x) 和 sn(z) 表示 F(x) 的 均值 和 标准 差 , MA, 
Falz) —r(a) _ a(z) -Fn(z) | Fn(z) 一 r(z) 
na) ~ sr) sn 
bias(7,(x)) 
‘variance(?;,(x)) ” 


=Gn(z) + 
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这 里 ,Zu(z) = [Fa(x) —Fn(z)|/sn(z). 通常 这 第 一 项 Z, (x) 收敛 于 一 个 标准 正 态 分 
AB, 并 以 此 推导 出 置信 带 . 第 二 项 为 偏 倚 除 以 标准 差 . 在 参数 推断 中 , 偏 倚 通 常 小 于 
估计 的 标准 差 , 因此 当 样 本 量 增加 时 , 这 一 项 趋 于 零 . 在 非 参 数 推断 中 , BARS, 
最 优 光 滑 相应 于 平衡 偏 倚 和 标准 差 . 第 二 项 即使 当 样本 量 大 的 时 候 也 不 消失 . 
第 二 个 非 零 项 的 存在 把 偏 倚 引 入 了 正 态 极限 . 作为 结果 , 由 于 光滑 偏 倚 

Falz) 一 7(z), 置信 区 间 将 不 会 在 以 7 为 中 心 的 置信 区 间 周 围 . 

关于 这 个 问题 , 有 几 件 事情 能 做 . 第 一 , 和 它 共存 . 换 句 话说 , 接受 置信 带 是 为 
Fr 而 不 是 为 > 的 事实 . 只 要 报告 结果 时 多 加 小 心 , 讲 清楚 推断 是 为 Pr 而 不 是 为 > 
ER, 那么 这 没有 什么 不 对 . 第 二 个 作法 是 估计 偏 倚 函 数 F(x) — >(z). 这 很 难 做 . 
实际 上 偏 倚 的 带头 项 是 "(zx), 而 估计 r 的 二 阶 导数 比 估计 r 要 难 的 多 . 这 要 求 引 
进 额 外 的 光滑 条 件 , 它 又 导致 了 原先 的 估计 并 没有 利用 这 个 额外 光滑 的 问题 . 在 这 
个 问题 有 某 种 不 愉快 的 循环 @， 第 三 个 方法 是 欠 光 滑 (undersmooth). 如 果 光 滑 得 
比 最 优 程度 少 些 , 那么 偏 倚 将 相对 于 方差 浙 近 地 减少 . 不 幸 的 是 , 似乎 并 不 存在 一 
个 简单 和 实用 的 规则 来 选择 刚好 合适 的 欠 光 滑 量 .( 看 本 章 最 后 关于 这 一 点 的 更 多 
的 讨论 .) 将 采取 第 一 种 作法 , 并 且 满 足 于 找到 ,的 一 个 置信 带 . 

5.98 例 ”为 理解 估计 Tn 而 不 是 估计 r 的 含义 , 考虑 下 面 例子 . > 

r(x) = $(7;2,1) 十 zi4,0.5) + 内 zi6,0.1) + (a; 8, 0.05), 

这 里 , p(z; m, s) 表示 均值 为 m, 方差 为 s 的 正 态 密度 函数 . 图 5.10 表示 了 真实 的 
函数 (LZ), 一 个 局 部 线性 估计 MEHA), 它 是 基于 100 AWW Yi = r(i/10) + 
2N(0,1),¢ = 1,……,100, 带宽 为 h = 0.27, 函数 F,(x) = E(Fa(x)) (FH), ¥ r(x) 一 
zn(Z)( 下 右 ). 看 到 把 峰 光 滑 掉 了 . 比较 上 右 和 下 左 图 , TA F(x) 实际 上 估计 的 
是 元 , 而 不 是 r(z). 总 之 , 除了 Tn 没有 r 的 一 些 细节 之 外 , fn 和 r(x) 还 是 很 类 似 
的 . m 


HELEP. BE Pu(z) 为 一 个 线性 光 清 器 , BFL Fale) = Y Y:t:(2), 则 


i=1 
F(a) = EGn(z)) = 》 4i(z)r(zi). 
i=1 
暂时 假定 c2(z) = 0? = V(ei) 为 常数 . PA, 
V(t (2)) = o°|le(2)]]?. 
将 考虑 zn(z) 的 有 下 面 形式 的 一 个 置信 带 : 对 某 c>0 和 a<z<b 


T(z) = (fr(z) — cdlle(z)l, Fale) + cdlle(z)ll). (5.99) 


O 估计 偏 倚 的 一 个 不 同方 法 在 Ruppert et al. (2003) 的 6.4 节 讨论 . 然而 , 我 没有 见 到 任何 理论 结 
果 来 证 明 得 到 的 置信 带 是 有 道理 的 . 
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图 5.10 真实 函数 (上 左 ), 基于 100 个 观测 值 的 一 个 估计 Fn( 上 右 ), 函数 fn(z) = EE(Fn(2)) 
(FE), 2 r(x) 一 各 (z)( 下 右 ). 


按照 Sun and Loader (1994) 的 方法 . 首先 , 假定 o ABA. MA, 


本 = IFz) — 7(2)| 
P(t(z) ¢ I(x), 对 某 z € [a,b])=P (ma, Slew > 9 


|E stla) 
=P| mes > 


=P ES IW(z)| > = 


这 里 , W(z) = SD ZN), Z = «i/o ~ N(0,1) 及 T(z) = &i(a)/||€(@)||- RE W(2) . 


为 一 个 高 斯 过 程 中 ， 为 了 求 。 需要 有 可 能 计算 高 斯 过 程 最 大 值 的 分 布 . 幸运 的 是 ， 
这 是 一 个 已 经 研究 过 的 问题 . 特别 地 , Sun and Loader (1994) 表明 , 对 于 大 的 c 


P (ms Sane) 
izi 


> °) = 2[1 — H(c)] + neen (5.100) 


b 
wo= /zlar 6101) 


O 这 意味 着 它 是 一 个 随机 函数 ,使 得 对 于 任意 有 穷 点 集 21,---, zk, 向量 (W(z1),…,W(zk)) 有 一 
个 多 元 正 态 分 布 . 


57 fa # T5- 


T' (x) = (Ti (2), --, Ta(@)) R T} (£) = 97i(z)/az. 对 mo 的 一 个 近似 在 练习 20 给 出 . 
方程 (5.100) 称 为 管 公式 (tube formula). 在 附录 中 有 推导 的 概要 . 如 果 选 择 c 来 解 
方程 

2[1 — $(O)] + Seen =a, (5.102) 
那么 , 得 到 想 要 的 联 立 置信 带 . 如 果 o RA, 利用 一 个 估计 e. Sun and Loader 建议 
把 (5.100) 的 右边 替代 以 


一 m/2 


Ko Coad 
P(Tm| > c) + 人 十 <) 
这 里 , Tm 有 一 个 自由 度 为 m= n- tr(L) H t 分 布 . 对 于 大 的 n, (5.100) 仍然 是 一 
个 合适 的 近似 . 
现在 假定 olz) 为 z 的 一 个 函数 , WA, 


V(Fa(z)) = F(a). 


i=1 


I(x) = F(z) tes(z), (5.103) 


-Èa zi)l2(z) 


G(x) 为 ol(z) 的 一 个 估计 , c 为 在 (5.102) 定义 的 常数 . 如 果 5(z) 随 > 变化 惕 , 则 对 
那些 使 得 Li(z) 大 的 i, 有 o(zi) © ole), 并 因此 


s(z) ~ @(z)||€()|I- 


这 样 , 一 个 近似 的 置信 带 为 
I(x) = Fa(z) + c9(2)|Ie(2))). (5.104) 


关于 这 些 方 法 的 更 多 细节 , 参见 Faraway and Sun (1995). 

5.105 例 5.11 显示 了 对 CMB 数据 使 用 一 个 局 部 线性 拟 合 的 联 立 95% 置 
信 带 . 带宽 是 用 交叉 验证 选择 的 . 发 现 ro = 38.85 及 c = 3.33. 在 上 面 小 图 中 , 在 
构造 置信 带 时 假定 了 常数 方差 . 在 下 面 小 图 中 , 构造 带 时 没有 假定 常数 方差. 看 到 ， 
如 果 不 考虑 非常 数 方差 , 对 于 小 的 z, 过 分 估计 了 不 确定 性 , 而 对 于 大 的 z, 低估 了 
不 确定 性 . 
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800 
图 5.11 局 部 线性 拟 合 及 联 立 95% 置 信 带 
上 图 假定 了 常数 方差 0; 下 图 允许 非常 数 方差 52(z). 


5.106 说 明 ”已 经 忽略 了 由 于 选择 光滑 参数 而 造成 的 不 确定 性 , 能 够 如 下 调 
整 这 额外 的 不 确定 性 . 当选 择 光滑 参数 h 时 , 把 搜寻 范围 限制 于 一 个 有 m= m(n) 
个 点 的 有 穷 集合 Hn. 在 水 平 a/m 构造 置信 带 . 这 样 , ER A 102) 的 右边 用 a/m 
代替 a. 那么 , Bernoulli 不 等 式 确保 了 覆盖 率 至 少 是 1 一 

5.107 说 明 ”在 利用 自助 法 来 得 到 置信 带 上 ， 有 大 量 文献 这 需要 比 第 3 章 所 
介绍 的 更 复杂 地 利用 自助 法 . 例如 , Hirdle and Marron (1991), Neumann and Polzehl 
(1998), Hall (1993), Faraway (1990), Hirdle and Bowman (1988). 


5.8 平均 覆盖 率 


可 能 会 有 人 认为 ， 要 求 置信 带 在 所 有 的 z 点 都 覆盖 函数 是 太 严格 了 ，Wahba 
(1983), Nychka (1988) 及 Cummins et al. (2001) 引进 了 不 同类 型 的 覆盖 率 , 称 之 为 
平均 覆盖 率 . 这 里 , 基于 Juditsky and Lambert-Lacroix (2003) 的 思想 讨论 构造 平均 
覆盖 率 置信 带 的 一 个 方法 . 

假定 在 区 间 [0,1] 上 估计 r(w). 定义 一 个 置信 带 (Cu) 的 平均 覆盖 率 (average 


coverage) 49 


1 
C= Í P(r(x) € [€(x), u(z)])dz. 
0 
在 第 7, 8 章 , 介绍 了 为 > 构造 置信 球 的 方法 . 它们 是 下 面 形式 的 集合 Bu(a) : 
Bn(a) = {r : fn — 7 < sn(a)}, 


满足 
P(r € Bn(a)) > 1- a. 


@ E P(A U- --U Am) < E P(Ai)- 


5.9 ”线性 光滑 的 概括 “77. 


已 给 这 样 的 一 个 置信 球 , 令 


(2) = F(a) sn(0/2) Z, ula) = Fala) + on(a/2)V2. (6.108) 
现在 表明 ,这 些 置信 带 有 至 少 1 - a 的 平均 覆盖 率 . 首先 注意 , C = Ptr(U) € 
U), u(U)]}), 这 里 ，UV ~ Unif(0,1) 独立 于 数据 . + 4 Wr © B,(a/2) 的 事件 . 
在 事件 4, |[Fa — rll < sn(a/2). 把 sn(a/2) WH Sn, 有 


1-C=P(r(U) ¢ [€U),u(U)]) =P (mo —1(U)| > sn \2) 
=P (ro -r(U)| > on? a) +P (mo —r(U)| > syi, a) 


<P (rw ~r(U)| > WE a) +P(A°) 


1 
EI, Í Falu) — r(u)[2du 
0 a 
T3 


z Ermu r(U)P + 
ha ba 
-Eula ri? e < EH 


ge 2 322 
pr ng 


5.9 线性 光滑 的 概括 


到 此 , 已 经 覆盖 了 许多 和 线性 光滑 方法 有 关 的 内 容 . 现在 是 概括 构造 估计 Pa 和 
置信 带 的 步骤 的 时 候 了 . 


线性 光滑 的 概括 
(1) 选择 一 个 光滑 方法 , 如 局 部 多 项 式 、 样 条 等 . 这 等 于 选择 权 的 形式 : EC(z) = 
(€1(@), +++ €n(w))?. 一 个 好 的 缺 省 选择 是 如 在 定理 5.60 描述 的 局 部 线性 光滑 . 
(2) 利用 (5.35), 通过 交叉 验证 选择 带宽 六 
(3) 如 5.6 节 所 描述 的 , 估计 方差 函数 52(z). 
(4) 根据 (5.101) 求 so, 并 从 (5.102) K c. 
(5) 关于 Tn = E(F,(x)) 的 一 个 近似 1-a BHA 


Fa (x) + e5(z)||e(2)|I- (5.109) 


5.110 (LIDAR) ”回忆 例 4.5 和 例 5.59 的 LIDAR 数据 . 发 现 ro ~ 30 及 
c= 3.25. 得 到 的 置信 带 显示 在 图 5.4 的 下 右 小 图 中 . 正如 所 预期 的 , 对 于 大 的 协 变 


78. Bose FAEH 


量 的 值 , 有 大 得 多 的 不 确定 性 . m 


5.10 ”局 部 似 然 和 指数 族 


如 果 Y 不 是 实 值 的 或 者 e 不 是 正 态 的 , 那么 一 直 在 用 的 基本 回归 模型 就 不 合 
适 了 . 例如 , 如 果 Y e {0,1}, 那么 用 Bernoulli 模型 可 能 更 自然 一 些 . 在 这 一 节 , 讨 
论 对 于 更 一 般 模 型 的 非 参 数 回归 . 在 进行 之 前 , 应 该 指出 , 即使 当 Y 不 是 实 值 的 或 
e 不 是 正 态 的 时 , 基本 模型 也 常常 能 够 很 好 地 工作 . 这 是 因为 渐 近 理论 并 不 真正 依 
RAT e 为 正 态 的 , 这 样 , 至 少 对 大 样本 , 值得 考虑 利用 为 这 些 情况 已 经 开发 的 工具 ， 

回忆 , 称 Y 有 一 个 指数 族 分 布 , 如 果 对 于 给 定 的 z， 及 对 某 函数 al), bC), 及 
(4), 


f(ylz) | +o, (5.111) 
这 里 , 6(.) 称 为 典型 参数 , 6 称 为 散布 参数 . 然后 得 到 
r(z) =E(Y|X = z) = b'(6(2)), 
o?(x) =V(¥|X = z) = a(9)b" (6(2)). 
这 个 模型 的 通常 参数 形式 为 


yola) — b(6(x)) 
a(¢) 


g(r(z)) = 278, 
这 里 , 9 为 某 已 知 函 数 , 称 为 连接 函数 (link function). 模型 
YIX=z~ f(ylz), g(E(Y|X =2)) = 278 (5.112) 


称 为 一 个 广义 线性 模型 (generalized linear model). 
作为 例子 , WR Y ERE X = z 时 为 Binomial(m,7(z)), 那么 


tu = ("cantare 
它 有 (5.111) 的 形式 , 而 且 


oa) = tog Ch, 
E a(d) =1. 取 g(t) = log(t/(m —t)) 产生 了 logistic 回归 模型 . 参数 8 通常 由 最 大 
似 然 法 估计 . 

考虑 一 个 非 参数 形式 的 logistic 回归 . 为 简单 记 , 集中 考虑 局 部 线性 估计 . 数据 
为 (21, Y1), (En, Yn), 这 里 Y; € {0,1}. 假定 对 于 某 个 满足 0 < r(x) < 1 的 光滑 


函数 r(z)， 


b(0) = mlog(i + e°) 


Y; ~ Bernoulli(r(z;)). 
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这 样 , P(Y; = 1|Xi = zi) = (zi) 及 P(Y: = 0|Xi = zi) = 1-1 (xi). 似 然 函 数 为 
Tro" i-r)", 


i=1 


、 因 此 , 记 (2) = log(r(z)/[1 — r(2)]), 对 数 似 然 为 


tlr) = Do L(Y, (xi), (5.113) 
i=1 
这 里 ， 
e \¥ rT l-y 
ly,€) = log (G5) (z) ) 
= y§ — log(1 + cf). (5.114) 


为 在 > 估计 回归 函数 , 对 于 接近 z 的 u, 用 下 面 局 部 logistic 函数 来 近似 回归 
函数 r(w)( 与 (5.15) 比较 ): 


e%tai(u-z) 
r(u) = 1 十 eao+ak(u 一 z) 


等 价 地 , 用 ao + ai(z — u) 来 近似 log(r(u)/[1 — r(u)]). 现在 定义 局 部 对 数 似 然 (local 
log-likelihood) 为 


La(a) -YK 人 =) RAEN — 2) 


n 


= r-Xi A = ao+ai( Xi 一 了 
-2 人 ( ) (loo + a(x z)] — log(1 + etotar(® »)). 


h 


令 A(z) = (@o(2), â (2)) 使 得 L 最 大 化 ; 它 能 用 诸如 Newton-Raphson 等 任何 方便 
的 最 优化 方法 来 求 得 . r(z) 的 非 参数 估计 为 


= 


ol) 


Fa(z) = Te (5.115) 
带宽 能 够 利用 缺 一 对 数 似 然 交 叉 验 证 来 选择 : 
CV = P Yi G9 (zi)), (5.116) 
i=l 


这 里 , Gi) 为 缺少 (zi, Yı) 时 得 到 的 估计 . 不 幸 地 , 这 里 没有 像 定理 5.34 那样 的 恒 
等 式 . 但 是 , 这 里 有 下 面 源 于 Loader (1999a) 的 近似 . 回忆 (5.114) 的 L(x, £) 的 定 
义 , 并 令 ilu, E) 及 ly,é) 表示 Cy, 6) 的 关于 & 的 一 二 阶 导 数 . FE, 

ély,€)=y - Pl), 

ily, €) = -P(A — p6), 


第 5 章 SMES, 


这 里 , p(E) = ef/(1 + e£). 如 在 (5.54) 那样 定义 矩阵 X, 和 Ws, 并 令 Vs 为 一 个 对 
角 线 矩 阵 , 其 第 ; 个 对 角 线 元 素 等 于 ÜY; âo 十 全 (zj -zi)). BA, 
CV 62(@) + Y` mla) [ira], (6.117) 
i=1 
这 里 ， 
m(z) = K(0)eT (XTIWsVsX,)- le (5.118) 


及 el = (1,0,…,0)T. 有 效 自由 度 为 


m(z:)E(—Ë(Y;, a0)). 


Ms: 


v= 
1 

5.119 例 5.12 显示 了 对 于 产生 于 模型 Y; ~ Bernoulli(r(zi)) 的 一 个 例子 的 
局 部 线性 logistic 回归 估计 , 这 里 r(z) = easin*/(1 + e3sinz). 实 线 是 真实 函数 r(x). 
短线 虚线 为 局 部 线性 logistic 回归 估计 . 还 忽略 数据 是 Bernoulli 分 布 的 事实 , 计算 
了 局 部 线性 回归 估计 . 点 虚线 为 得 到 的 局 部 线性 回归 估计 @， 在 上 面 两 种 情况 , 使 
用 了 交叉 验证 来 选择 带宽 . E 


-3 0 3 
图 5.12 ”局 部 线性 logistic 回归 
实 线 是 真实 函数 r(x) = P(Y = 1|X = z). 短线 虚线 为 局 部 线性 logistic 回归 估计 . 点 虚线 为 局 部 线性 回 
归 估计 . 


5.120 例 例 4.6 引入 了 BPD 数据 . Y 表示 有 或 没有 BPD, 而 协 变量 > = 出 
生体 重 . 图 5.13 显示 了 估计 的 logistic 回归 函数 (SH)r(2; Bo, A) 以 及 数据 点 . 该 
图 还 展示 了 两 个 非 参数 估计 . 短线 虚线 为 局 部 似 然 估计 . 点 虚线 为 忽略 了 Y; 的 二 
分 性 质 的 局 部 线性 估计 . 再 一 次 看 到 , 在 局 部 logistic 模型 和 局 部 线性 模型 之 间 没 
有 多 大 区 别 . 图 


© 用 加 权 拟 合 可 能 合适 , 因为 Bernoulli 的 方差 是 均值 的 一 个 函数 . 


5.12 多 元 回归 :81 ， 


1 enemies nm mn 


发 育 不 良 


400 600 800 1000 1200 1400 1600 
出 生体 重 ( 克 ) 


图 5.13 BPD 数据 
数据 以 小 的 竖 直 线 表 示 . 估计 为 logistic 回归 (SEA), 局 部 似 然 (短线 虚线 ) 和 局 部 线性 回归 (点 虚线 ). 


5.11 尺度 空间 光滑 


这 是 另 一 个 光滑 方法 , 被 Chaudhuri and Marron (1999, 2000) 所 倡导 的 , 称 为 
尺度 空间 光滑 (scale-space smoothing), 它 避 开 了 选择 单一 的 带宽 的 想法 . > lae) 
表示 一 个 使 用 带宽 h 的 估计 . 其 思路 为 : 把 la) 看 成 rh(z) = Eala) 的 一 个 估 
计 , 如 在 5.7 节 所 做 的 . 但 是 ; 不 去 选择 单一 的 带宽 , 在 带宽 为 h 的 一 个 集合 上 考察 
Fh, 作为 探索 尺度 空间 曲面 (scale-space surface) 的 一 种 方式 . 


S={ra(z),2 EX,he H} 


的 一 个 方式 , 这 里 x 是 z 的 范围 , 而 H 是 h 的 范围 . 
一 种 对 估计 的 尺度 空间 曲面 


S= {Fi(a),2 € X,h EH} 


概括 的 方式 是 分 离 出 重要 形状 的 概括 . 例如 ，Chaudhuri and Marron (1999) 利用 
F(x) 作为 检验 统计 量 的 一 个 集合 来 寻求 那些 使 得 交 (z) = 0 的 点 z. 他 们 把 得 到 的 
方法 称 为 SiZer(significant zero crossings of derivatives). 


5.12 多 元 回归 
现在 假定 协 变量 是 a 维 的 ， 


Wi (fime) E 
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回归 方程 的 形式 为 
Y=r(z1 2a) +6. (5.121) 

原则 上 , 所 有 讨论 过 的 方法 都 能 容易 地 用 于 这 个 情况 . 不 幸 的 是 , 非 参 数 回归 估计 
的 风险 随 着 维 数 d 迅速 增长 . 这 就 是 4.5 节 讨 论 的 维 数 诅咒 . 现在 值得 重新 考察 
这 个 问题 了 . 在 一 维 问题 中 , 如 果 假 定 + 有 一 个 可 积 的 二 阶 导数 , 一 个 非 参数 估计 
的 最 优 收敛 率 是 n745. 在 d 维 时 , 最 优 收敛 率 为 ntd, 这 样 ,为 了 和 样本 量 为 
n 的 一 维 问题 有 同样 的 精度 , 对 于 d 维 问题 所 需要 的 样本 量 m 为 m x ne4, 这 里 
c= (+d/G5d) > 0. 这 意味 着 下 面 的 事实 : 

为 了 保持 估计 一 个 给 定 的 精确 度 , 样本 量 必须 随 着 维 数 4 指数 地 增长 . 
换 句 话说 , 当 维 数 d 增加 时 , 置信 带 变 得 非常 大 . 然而 , 继续 , 看 如 何 估计 回归 函数 . 

局 部 回归 . 考虑 局 部 线性 回归 . 核 函 数 K 现在 是 d 个 变量 的 函数 . 给 定 一 个 
非 奇异 d x d 正定 带宽 矩阵 H, 定义 

1 
~ ay? 
人 们 经 常 重新 调整 每 个 协 变量 的 尺度 , 使 得 它们 有 同样 的 均值 和 方差 , 然后 , 利用 
核 


Kun(z) K(H~'/?2). 


h-4K (\le||/h), 
这 里 K 为 任何 一 维 核 . 那么 ,有 一 个 单一 的 带宽 参数 h. 在 目标 值 > = (zi ……zd)T， 
局 部 平方 和 为 


2 
d 
P wile) (« 一 an0 一 > alty 一 =») ‘i (5.122) 
i=1 jal 


wi(x) = K (lai — x||/h). 


Falz) = Go, (5.123) 
这 里 , @ = (Go,… ,Ga)T 为 使 得 该 加 权 平 方 和 最 小 的 a = (ao, aa) 的 值 . 解 人 


â =(XIW:X:) 'XIW:Y, (5.124) 
RE 
1 zl 一 ZI … Tid 一 Zd 
1 tna- +++ 7Z2d 一 Zd 
X:= 


l Znl 一 ZL ` Znd—Zd 
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而 Ws 为 第 (i,i) 个 元 素 为 wi(z) 的 对 角 线 矩阵 . 

Ruppert and Wand (1994) 讨论 了 高 维 情况 局 部 多 项 式 回 归 的 理论 性 质 . 
结果 如 下 : 

5.125 定理 (Ruppert and Wand, 1994) 47, AAA#REM H 的 多 变量 
局 部 线性 估计 ， ane Ruppert and Wand ie 中 的 正则 条 件 . 假定 z 为 一 
个 非 边 界 点 . 以 Xi 为 条 件 , 有 下 面 结果 : F(x) DRAN 


sual )trace( HH) + op(trace(H)), (5.126) 


这 里 多 为 r eo WOME SRE, 而 J2(K) 是 由 方程 [wrx K(u)du = po(K)T 
定义 的 标量 . nl) 的 方差 为 
o?(a) Kwau 
e+ eO (5.127) 
再 者 , 边界 处 的 偏 倚 与 内 部 的 偏 倚 同 阶 , 即 Op(trace(H)). 
这 样 看 到 , 在 较 高 维 时 ， 局 部 线性 回归 仍 然 尼 开 了 过 分 的 边界 偏 侍 和 设计 信 信 
样 条 . 如 果 采 取样 条 方法 , 需要 定义 高 维 中 的 样 条 . 对 于 d = 2, 最 小 化 


SOM -falzi Zi) + I(r) > 


O2r(z, B2r(z B2r(z 
v= ff (EF) +2 Ge) + GP) ene 
使 其 最 小 化 的 Pa 称 为 一 个 薄片 样 条 (thin-plate spline). 它 很 难 描述 , 甚至 很 难 (但 
无 疑 不 是 不 可 能 的 ) 拟 合 . 细节 参看 Green and Silverman (1994). 
可 加 模型 . 对 高 维 拟 合 的 解释 和 可 视 化 是 困难 的 . 当 协 变量 数目 增加 时 , 计算 
的 负担 成 为 拦路 虎 . 有 时 , 一 个 更 加 有 结果 的 作法 是 利用 可 加 模型 (additive model). 
一 个 可 加 模型 的 形式 为 


Ex 


a 
Y= at Dri(z;) +€, (5.128) 
j=1 
这 里 r1,… ,7a 为 光滑 函数 . 模型 (5.128) 不 是 可 识别 的 , 这 是 因为 能 够 加 上 任意 常 
数 到 a, 并 从 一 个 rj 减 去 同样 常数 而 不 改变 回归 函数 . 这 个 问题 能 够 用 一 些 方式 
处 理 , 可 能 最 容易 的 是 设 & = 了 , 然后 把 那些 7; 看 成 对 了 的 偏离 . 这 样 , 就 要 求 对 
EA j, D (zi) = 0. 
可 加 模型 显然 不 如 拟 合 7(z1,…,za) 那么 一 般 , 但 计算 和 解释 它 要 较 简单 ; 因 
此 它 常 常 是 好 的 开始 点 . 下 面 是 把 任何 一 维 回归 光滑 器 转换 成 拟 合 可 加 模型 的 方 
法 的 一 个 简单 的 算法 . 它 称 为 回转 拟 合 (backfitting). 
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可 转投 合生 法 
初始 化 : Ba = F, IBMT A, Pa 的 猜测 
ARAIKA: 对 j= 1,…,d， 
(1) HA F =Y; -8 -J re(z:), i=1,…,n. 

ké: 
(2) 应 用 一 个 光滑 器 到 在 2, 上 的 T, DUBS 5). 
(8) BAe) 等 于 方 (z) -n F(a). 

i=l 


5.129 例 ” 回 到 有 三 个 协 变量 和 一 个 响应 变量 的 例 4.7， 数 据 显示 在 图 5.14 
中 . 数据 是 来 自 石油 库 的 48 个 岩石 样本 , 响应 变量 为 渗透 性 (单位 为 毫 达 西 , mili- 
Darcies); 协 变量 为 : 小 孔 的 面积 (基于 256 R 256 背景 的 的 像素 ), AK (单位 : 像 
素 ) 和 形状 ( 周 长 /V 面 积 ). 目标 是 用 这 三 个 协 变量 预测 渗透 性 . 首先 拟 合 可 加 模型 


渗透 性 = ri (AR) + rz( 周 长 ) + rs( 形 状 ) + 


€: 


oe eo? 
$ ce ne 2 
By we 
=. . Eg . 
: : 
M7 $7 s 


1000 2000 3000 4000 5000 01 02 03 


面积 周 长 


渗透 性 的 对 数 


O 200 400 600 800 1200 
形状 


图 5.14 岩石 数据 


能 够 变换 每 个 协 变量 的 尺度 使 得 它们 有 同样 的 方差 , 然后 对 每 个 协 变量 用 一 个 
共同 的 带宽 . 然而 , 用 了 一 个 更 加 冒险 的 作法 , 即 在 回转 拟 合 的 每 一 次 迭代 都 对 协 
变量 zj; 施行 交叉 验证 来 选择 hj. 在 该 算法 中 , 如 果 光 滑 参 数 以 这 种 方式 改变 , 没 
“有 看 到 任何 理论 保证 其 收敛 性 . 然而 , 带宽 和 函数 估计 收敛 得 很 快 . 图 5.15 显示 了 
rra 和 rs 的 估计 .了 在 点 图 之 前 加 到 每 个 函数 上 . 下 面 考虑 一 个 三 维 局 部 线性 拟 
合 (5.123). 在 对 每 个 协 变量 变换 尺度 , 使 它们 有 均值 0 和 方差 1 之 后 , 发 现 带宽 
hv 3.2 使 得 交叉 验证 得 分 最 小 . 由 可 加 模型 和 完全 三 维 线性 拟 合 的 残 差 显示 在 图 


5.16. 显然 , 拟 合 值 很 类 似 , 这 意味 着 广义 可 加 模型 是 合适 的 . 
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Bo EH 
a $ 
#8 #8 
pA pA 
A7 En = + 
1000 2000 3000 4000 5000 OI 02 03 04 
面积 周 长 
dl ee 
R 
2 


0 200 400 600 800 1000 
形状 


图 5.15 ”岩石 数据 
图 示 了 可 加 模型 Y = Fi (z1) + Fa(z2) + Palza) + € h Pa, P2 M Fa. 


05 
ha 
R Of 


-0.5 


~054 Can ” _ 


7 8 9 -0.5 0.0 0.5 
预测 值 预测 值 


图 5.16 岩石 数据 的 残 差 
上 左 : 可 加 模型 的 残 差 . 上 右 : 可 加 模型 残 差 的 qq 图 . FE: 多 元 局 部 线性 模型 的 残 差 . 下 右 : 两 个 拟 合 残 
差 的 散 点 图 . 


投影 寻 踪 .Friedman and Stuetzle (1981) 引入 了 对 付 高 维 回归 的 另 一 种 方法 ， 
称 为 投影 寻 踪 回归 (projection pursuit regression). 其 意图 是 以 下 面 形 式 的 函数 来 近 
似 回归 函数 7r(z1,…, £p) : 


M 
B+ 》 rm(zm)， 
m=1 
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这 里 ， 


im = OL 

而 且 对 于 mm = 1,…, M, 每 个 am 是 一 个 单位 向 量 (长 度 为 1). HER, 每 个 zn 都 
是 x 到 一 个 子 空间 的 投影 . 在 每 一 步 , 都 选择 方向 向 量 o, 使 得 未 被 解释 的 方差 部 
分 最 小 . 更 详细 地 说 , 已 给 Yi 和 某 些 一 维 协 变量 值 za ……,zn; 令 S(-) 表示 依照 某 
光滑 方法 输出 n 个 拟 合 值 的 投影 . S f= Y 并 用 Y-Y RE Y. 因此 , 那些 Y, 现 
在 有 均值 0. 类 似 地 , 对 协 变量 调整 尺度 , 使 得 它们 每 个 都 有 同样 的 方差 . 然后 做 下 
面 的 步骤 ` 

步骤 1. WR & = Yi, i=1,---,n, 并 设 m =0. 

步骤 2. 找到 方向 (单位 向 量 )av, 使 得 下 式 最 小 : 


FA- Sata)? 


Io) =1- = —, i 
La 

并 设 zmi =a" zi, Fm(zmi) = S(2mi)- 

步骤 3. 设 m = mm + 1, 并 更 新 残 差 


Ge 


WR m = M, 停止, 否则 回 到 步骤 2. 

5.130 例 ”如 果 应 用 投影 寻 踪 于 岩石 数据 , W M = 3, 得 到 图 5.17 中 显示 的 
BA Fi, 72,75. 拟 合 是 用 R 中 的 ppr 命令 实行 的 , 而 且 每 个 拟 合 都 是 用 光滑 样 条 得 
到 的 , 这 里 光滑 参数 是 由 广义 交叉 验证 选择 的 . 方向 向 量 为 


a; = (0.99, 0.07, 0.08)T, as = (0.43, 0.35,0.83)T， as = (0.74, —0.28, —0.61)™. 


这 样 , z1 = 0.99 面积 +0.07 AK +0.08 形状 等 . 如 果 在 模型 中 持续 增加 项 数 , 残 差 

平方 和 会 持续 变 小 . 图 5.17 的 下 左 图 显示 了 作为 项 数 M 的 函数 的 残 差 平方 和 . 可 

以 看 到 , 在 模型 包括 了 一 项 或 两 项 之 后 , 更 多 的 项 改进 不 大 . 能 够 试 着 利用 交叉 验 

证 来 选择 一 个 最 优 的 M. m 
回归 树 . 回归 树 为 具有 下 面 形 式 的 模型 : 


M 
ra) = > eml( € Rm); (5.131) 
m=1 
这 里 , c1,… ,cm 为 常数 , 而 Ri,…, Ru 为 不 相交 的 矩形 , 它们 分 划 了 协 变 量 空间 . 
树 模 型 是 被 Morgan and Sonquist (1963) 和 Breiman et al. (1984) 引进 的 . 模型 是 
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以 能 够 表示 为 一 棵 树 的 递归 方式 拟 合 的 ， 因 此 得 到 这 个 名 字 . 这 里 的 描述 是 按照 
Hastie et al. (2001) 的 9.2 节 作 的 . 


05 04 
02 
-05 
0.0 
-15 
= -02 
-1.5 0.0 15 -1 0 1 2 
02 
00 10 
-02 5 
-04 
-3 2 1 0 i 012345678910 


图 5.17 ”投影 寻 踪 应 用 于 岩石 数据 
点 图 显示 了 71, 72,73. 


用 z = (z1,…,zj,…,za) 表示 一 般 的 协 变量 的 值 . 第 i 个 观测 值 的 协 变 量 为 
= (wiry +++ Tijs, Tid). 给 定 协 变量 7 和 一 个 分 割 点 s, 定义 矩形 Ri = Ri(j, s) = 
a zj < s} 和 Ra = R2(j,s) = {2 : zj > s}; 在 这 个 表达 式 中 , zi 为 第 7 个 协 变量 
而 不 是 第 ; 个 观测 值 . 于 是 , 取 ci WRAY: 在 zi e Ri 上 的 平均 , 而 co 为 所 有 Yı 
在 zi e Ry 上 的 平均 . 注意 , cy 和 cy 使 得 平方 和 》2 Y-a) 和 D Y~ o)? 


zi€ERL Ti€ER2 

最 小 . 选择 哪 一 个 zi 来 被 分 割 以 及 用 哪 一 个 点 为 分 割 点 s 基于 使 残 差 平方 和 最 小 
化 . 该 分 制 过程 在 每 个 矩形 Ri 和 Ro 重复 继续 . 

图 5.18 显示 了 一 个 回归 树 的 简单 例子 , 它 还 表明 了 相应 的 矩形 . RR E 
矩形 上 是 常数 . 

一 般 来 说 , 先 长 一 颗 非常 大 的 树 ,然后 通过 剪 枝 , 把 区 域 合并 以 形成 一 个 子 树 . 
树 的 大 小 是 一 个 调整 参数 , 它 是 按照 下 面 方法 选择 的 . 令 Nm 表示 在 一 子 树 了 中 
的 一 个 矩形 Rm 中 的 点 数 , 并 且 定 义 


a 1 
= 一 Yi, Qm(T) = F (Yi — cm)’. 
由 下 式 定义 了 的 复杂 性 : 


四 
= J NnQn(T) + alT], (5.132) 
m=1 
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这 里 , a > 0, 而 |T| 为 树 的 端 结 点 的 数目 . > Ts 为 使 得 Ca 最 小 的 最 小 子 树 . a 的 
值 & 能 够 用 交叉 验证 法 来 选择 . 最 终 估计 是 基于 树 Ts 的 . 


x 
各 e 
< 100, New 
C Cz 


图 5.18 有 两 个 变量 z; 和 z2 的 一 颗 回归 树 
函数 估计 为 flz) = clT(z € Ry) + c21 (z € Ro) + csT(z € R3), KB, Ri, Ra 和 Rs 为 下 面 图 中 表示 的 
HEO. 


5.133 例 图 5.19 表示 了 关于 岩石 数据 的 一 棵 树 . 注意 , 变量 形状 没有 出 现 
CML, 这 意味 着 形状 这 个 变量 从 来 不 是 该 算法 中 用 来 分 割 的 最 优 协 变量 ， 结果 
是 , 该 树 仅仅 依赖 于 面积 和 周 长 . 这 说 明了 树 回归 的 一 个 重要 性 质 : 它 自动 地 施行 
了 变量 选择 , 其 意义 为 , 如 果 该 算法 发 现 一 个 协 变量 zi 不 重要 , 那么 它 将 不 会 出 现 
在 树 中 . m 


< 1403 


面积 < 1068 RSAT 


面积 <3967 周 长 < .1949 
周 长 <.1991 | 


7.746 8.407 8.678 8.893 8.985 8.099 8.339 
图 5.19 关于 岩石 数据 的 回归 树 
MARS. 回归 树 是 不 连续 的 , 而 且 它们 不 容易 拟 合 主 效应 . (作为 对 照 , 除非 交互 
效应 放 入 模型 , 可 加 模型 仅仅 拟 合 主 效应 .) MARS 是 多 元 适应 回归 样 条 (multivari- 


O 原 图 有 误 : 该 图 下 面 小 图 的 数字 110 应 该 为 100. 一 一 译 者 注 
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ate adaptive regression spline) 的 缩写 , 它 被 Friedman (1991) 作为 一 个 对 回归 树 改 
进 的 企图 而 引进 的 . 
”下面 介绍 MARS 算法 . 按照 Hastie et al. (2001) 的 9.4 节 进 行 . 定义 
L(x, j,t) = (zj — tI(z; >t), r(z,j,t) = (t — z;)I(z; < t). 
U(x, j t) 和 r(x, j, t) 二 者 均 为 整个 向 量 = = (z1,…,za) 的 函数 , 但 它们 的 值 仅仅 依 
束 于 在 第 ; 个 分 量 zj. > 
= {(2, j t), r(z,j,t),t E€ fn 
这 样 , C; 为 仅仅 依赖 于 zi 的 线性 样 条 的 一 个 集合 , 每 个 观测 一 个 结 点 .现在 , > 
C= Ú Cj. 一 个 MARs 模 型 有 下 面 形式 


M 
r(z) = Bo + 》 Bmhm(z); (5.134) 
m=1 


这 里 , 每 个 函数 hm 或 者 在 C 中 , 或 者 为 两 个 或 更 多 这 样 函数 的 乘积 . 模型 的 拟 合 
是 以 直接 的 、 逐 步 的 方式 进行 的 , 很 像 回 归 树 . 更 多 细节 见 Hastie et al. (2001). 
张 量 乘积 模型 . 关于 多 元 回归 的 另 一 类 模型 有 下 面 形式 : 


r(x) = > Bmhm(z), (5.135) 
这 里 , 每 个 hm 是 张 量 乘积 空间 中 的 一 个 基 函 数 . 这 些 模型 将 在 第 8 章 考虑 . 
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这 里 讨论 几 个 和 非 参 数 回归 有 关 的 其 他 问题 . 

插入 带宽 . 作为 选择 带宽 的 交叉 验证 的 一 个 替代 是 插入 带宽 (plug-in band- 
width)， 其 思想 是 为 渐 近 最 优 带 宽 写 下 一 个 公式 ， 然 后 把 未 知 量 的 估计 插入 到 该 
公式 中 . 基于 Fan and Gijbels (1996) 的 4.2 节 描述 一 个 可 能 的 作法 . 

当 利用 局 部 线性 回归 , 并 假定 X: 随机 选择 于 某 密度 f(z) 时 , ( 渐 近 ) 最 优 带 宽 


PE) a 
Cc 
hes ae Cae f (5.136) 
S| 
这 里 ， 
o Jeor 天 2(t)dt 
(5.137) 


To 
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Wir? 为 r 的 二 阶 导 数 . 为 了 得 到 h. 的 一 个 粗略 的 估计 , 如 下 进行 . 用 最 小 二 乘 
法 拟 合 一 个 总 体 的 四 次 式 


F(x) = Bo + Bix + fox? + Bst? + aat, 
HO Fan Sr 一 (zi)]>. HK F(x) 为 领航 员 估计 (pilot estimate). + (a,b) 表示 
X: 的 范围 , 并 用 在 (a,b) 上 的 均匀 分 布 来 近似 f. 那么 


b (2) (x)? 


af ar Rei =n | TE f(z)dr 
-È r (Xi)? E Ero 
i=1 


F(X) 
而 且 , 用 下 式 估计 has 中 
hy oS := (5.138) 
LEO X)? 


i=1 
检验 线性 . 一 个 非 参 数 估计 h 可 以 用 来 构造 一 个 检验 , 看 一 个 线性 拟 合 是 否 
适当 , 考虑 检验 


Ho: r(x) = Bo+ Pit, 对 某 个 Bo, Ar 成 立 ， 


对 备 选 假设 ; Ho 为 伪 . 

用 H 表示 拟 合 线性 模型 时 的 帽子 矩阵 , 用 工 表示 拟 合 非 参 数 回 归 时 的 光滑 矩 
ae = IZY- ae, 
这 里 , \ = tr((L — H)"(L — H)), 而 22 EA (5.86). Loader (1999a) 指出 , 在 Ho 
F, 自由 度 为 > Al n- 2v +v 的 下 分 布 提供 了 对 T 分 布 的 一 个 粗略 的 近似 这 
样 , 如 果 T > ,nn_2w,4wsa, 将 在 水 平 a 拒绝 Ho. 在 Hirdle and Mammen (1993) 
中 描述 了 利用 自助 法 来 估计 零 分 布 的 一 个 更 严格 的 检验 . 

关于 任何 检验 , 未 能 拒绝 Ho 不 应 看 成 对 Ho 为 真 的 证 明 . 它 意味 着 数据 没有 
足够 的 能 力 来 探测 出 对 Ho 的 偏离 . 在 这 种 情况 , 一 个 线性 拟 合 可 能 被 认为 是 一 个 
有 理由 的 尝试 模型 . 当然 , 仅仅 基于 一 个 检验 来 做 这 样 的 决策 是 危险 的 . 

最 优 性 . 局 部 线性 估计 有 某 些 最 优 性 . 突出 描述 Fan and Gijbels (1996) 的 几 
个 结果 . 令 zo 为 一 个 内 部 ( 非 边 界 ) 点 , 并 令 


F={r: |r(z) —r(z0) — (z — 20)r’(a0)| < Cle — zol}. 


5.13 其 他 问题 Ct 


假定 协 变量 X 为 随机 的 , 具有 在 zo 为 正 的 密度 f. 还 假定 方差 函数 o(z) 在 zo 连 
续 . 令 上 表示 r(zo) 的 所 有 线性 估计 . 线性 最 小 最 大 风险 (linear minimax risk) 定义 
为 


RE = inf sup E((Î— r(xo))"|X1,-+-, Xn). (5.139) 
BELrEF 
Fan and Gijbels (1996) 表明 
4/5 
3, 1s | VCo? (z0) 
RE = 715 1/5 | Gre [1 + op(1)]. (5.140) 


再 者 , 这 个 风险 可 被 使 用 Epanechnikov 核 及 带宽 


_ [_150?(z0) Ws 
"| 


的 局 部 线性 估计 F 达到 . 
最 小 最 大 风险 (minimax risk) 定 义 为 


Rn = inf sup E((6 — "(zo)] |X, -++ Xn), (5.141) 
0 rE. 
这 里 , 下 确 界 是 对 所 有 估计 量 取 的 . Fan and Gijbels (1996) 表明 , P, 在 下 面 的 意义 
上 是 几乎 最 小 最 大 的 : 


Rn 
BRET Ga) rea > OOM Fert). 62) 


参见 第 7 章 更 多 的 关于 最 小 最 大 性 的 讨论 . 
导数 估计 . 假定 想 估计 r(z) K k MER r(x). 回忆 局 部 多 项 式 估计 是 以 下 
面 近似 开始 的 : 


r(u) xao tafu =a) + Puma)? +o + (ua), 


IAF, rO (2) ~ ar, 能 够 用 下 式 来 估计 它 : 


RE (2) = 你 = > £:(x,k)¥i, (5.143) 


i=1 


这 里 , L(x, k)T = (L (z, k), , En (x, k)), 


L(x, k)" =ef (XIW:X-) XIW, 


x41 =(0,---,0,1,0,---,0)", 
Ne 
k p-k 
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这 里 X, MW, 在 (5.54) EM. 

警告! 注意 , AY (z) 并 不 等 于 A, 的 大 阶 导数 . 

为 了 避 开 边界 偏 倚 和 设计 偏 倚 , 取 多 项 式 阶 数 p, 使 得 p-k 为 奇数 . 一 个 合理 
的 缺 省 取 法 为 p = 上 十 1. 这 样 , 为 了 估计 一 阶 导数 , 将 利用 局 部 二 次 回归 而 不 是 局 
部 线性 回归 . 下 面 的 定理 给 出 了 AO 的 大 样本 性 质 . 证 明 可 以 在 Fan (1992)、Fan 
and Gijbels (1996) 中 找到 . 为 了 叙述 这 个 定理 , 需要 几 个 定义 . 令 py = fui K(u)du 
B vj = wK?(w)du. FEM (p+ 1) x (p+1) 矩阵 S 和 S", 它们 的 第 (r,s) 元 素 为 


Srs = Urt+s—2, Srs = Vr+s—2- 
还 令 cp = (Mptis +s Hapsi)? BR Sp = (Jp+2，…,H2p+2) 人 .最 后 , 令 


egp+1 = (0, -+ -,0, 1,0,- -,0)7. 
ned 
x 


5.144 定理 ”对 于 i=1,…,n, $ Yi = r(Xi) + o(Xi)ei WR Xu Xn 为 
来 自 有 密度 f 的 分 布 的 一 个 样本 , 并 且 (i) f(z) > 0; W fird R o2 Erh 
个 邻 域 连续 ; (iii) h + 0 及 nh > 00. 那么, BR X1,…,Xn, 有 

Mb 3 S een ae top ( m=) G (5.145) 
HOR p-k ABH, REA 
ECE (2) 一 r(z) = elr1s op 7 
HOR p-k ABH, MA fi me) 在 z 的 一 个 邻 域 连续 ,而且 nhs 一 oo, MA 
Wi A 
k! 


E(P (2)) 一 r(z) seins G 
x (ra +(p+ Bme Fe) petia 


+ op(hPt?+h), (5.147) 


sr PH (z)hPt1-k + op(hP+1-k). (5.146) 


定义 2 
KZ) = K() SEVEN, 


那么 可 以 表明 ( 渐 近 ) 最 优 带 宽 为 。 


2 1/(2p+3) 
Clk,p) | Z 
he (eee f f) =] . (5.148) 


n frea) )]’dz 
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这 里 ， 


1/(2p+3) 
(p+ 1)!?(2k +1) f K}? (t)dt 


2(p+1—k) [/ eet] 


估计 一 个 导数 比 估计 回归 函数 要 难 的 多 . 这 是 因为 观测 到 回归 函数 (加 上 误差 ), 但 
不 能 直接 观测 到 导数 . 参看 Loader (1999a)6.1 节 关 于 其 令 人 信服 的 对 估计 导数 的 
困难 的 讨论 . 

可 变 带 宽 和 适应 性 估计 . 不 用 一 个 带宽 h, 可 试图 使 用 一 个 随 着 z 变化 的 带宽 
h(z). 以 这 种 方式 选择 带宽 称 为 可 变 带宽 选择 (variable bandwidth selection)， 这 看 
上 去 很 有 吸引 力 , 因为 它 允许 适应 变化 的 光滑 程度 . 例如 , r(x) 可 能 是 空间 非 齐 次 
的 , 这 意味 着 它 对 某 些 z 值 是 光滑 的 , 而 对 另 一 些 z 值 是 波动 的 ， 可 能 应 该 用 一 
个 大 的 带宽 于 光滑 区 域 , 而 用 小 的 带宽 于 波动 区 域 . 这 样 的 一 个 方法 称 为 局 部 适应 
的 (locally adaptive) 或 空间 适应 的 (spatially adaptive). 可 参看 例如 Fan and Gijbels 
(1996) 的 第 4 章 和 Ruppert (1997). 然而 , 除非 样本 量 很 大 而 且 噪声 水 平 很 低 , 在 
函数 估计 上 的 改进 常常 是 很 有 限 的 . 在 第 9 章 , 特别 是 9.9 节 , 有 更 多 的 关于 空间 
适应 的 讨论 . 

相关 数据 . 已 经 假定 了 误差 e = Yi — r(zi) 是 独立 的 . 当 在 误差 间 有 相依 性 时 ， 
方法 需要 改进 . 需要 什么 类 型 的 改进 依赖 于 表现 出 来 的 相依 类 型 . 例如 , 对 于 按时 
间 顺 序 的 数据 , 时 间 序 列 方法 常常 是 需要 的 . 更 一 般 地 , 需要 某 些 关 于 相依 结构 的 
知识 来 设计 适当 的 估计 方法 . 参看 第 10 章 关于 这 方面 更 多 的 叙述 . 

稳健 性 和 分 位 数 回归 .要 用 的 估计 是 基于 平方 误差 损失 的 . 这 是 一 个 容易 使 用 
的 损失 函数 , 但 是 得 到 的 估计 对 于 离 群 点 潜在 地 不 稳健 . 在 稳健 回归 (robust regres- 
sion) 中 , 选择 @ 来 使 下 式 , 而 不 是 (5.52) 式 最 小 : 


a Y; - a9 —ay(u—2) +--+ (u — z)? 
> wilz)p 二 (5.149) 


O(k,p) = 


i=1 + 


这 里 , s 为 残 差 的 标准 差 的 某 个 估计 . 取 p(t) =? 使 回 到 平方 误差 损失 . 一 个 更 稳 
健 的 估计 是 由 利用 Huber 函数 得 到 的 . 它 用 下 面 方程 定义 : 


p(t) = max{—c, min(c, t)}, (5.150) 


RE, c 是 一 个 调节 常数 . 当 c 00 时 , 回 到 平方 误差 , 当 c o 时 , 得 到 绝对 误差 . 
一 个 通常 的 选择 是 c = 4.685, 它 平衡 了 这 两 个 极端 . 取 


p(t) = |t| + (2a— Dt, . (5.151) 
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则 产生 分 位 数 回归 (quantile regression). 在 这 种 情况 , F(x) 估计 E(x), 这 里 , P(Y < 
€(x)|X = z) = a, RFE, E(x) 为 Y ERE z 时 的 条 件 分 布 的 a 分 位 点 . 细节 参看 
Fan and Gijbels (1996) 的 5.5 节 . 

测量 误差 . 在 某 些 情况 , 不 能 直接 观测 z, 而 只 能 观测 到 z 的 一 个 损坏 的 版 本 . 
观测 数据 为 (V1,Wi),---, (Ya, Wa), KB, 对 于 某 误差 5;， 


Yi =r(z;) + éi, 


Wi =z; + ĝi- 


这 称 为 一 个 测量 误差 (measurement error) 问 题 或 者 一 个 变量 中 的 误差 (errors-in- 
variable) 问题 . ¥ 在 Wi 上 的 简单 回归 导致 r(z) 的 不 相合 估计 . 将 在 第 10 章 更 
详细 地 讨论 测量 误差 . 

降 维和 变量 选择 . 一 种 处 理 维 数 诅咒 的 方法 是 试图 发 现 数据 的 一 个 低 维 近似 , 
方法 包括 主 成 分 分 析 (principle component analysis), 独立 分 量 分 析 (independent com- 
ponent analysis), 投影 寻 踪 (projection pursuit) 及 其 他 方法 . 关于 这 些 方法 的 介绍 和 
相关 的 参考 文献 , 看 Hastie et al. (2001). 

另 一 种 方法 是 施行 变量 选择 (variable selection), 它 把 不 能 很 好 预测 Y 的 变量 
从 回归 中 移 走 . 对 此 , 可 参看 Zhang (1991). 目前 , 在 非 参 数 回归 中 , 很 少 有 变量 选 
择 的 方法 既 实 用 又 有 严格 的 理论 验证 . 

多 元 回归 的 置信 和 集 . 在 5.7 节 的 置信 带 方 法 还 能 用 于 可 加 模型 ， 正 如 Sun and 
Loader (1994) 所 解释 的 那样 , 该 方法 还 能 扩展 到 高 维 线性 光滑 器 上 . 对 于 更 复杂 的 
方法 , 如 树 、MARS 和 投影 寻 踪 回归 等 , 还 未 发 现 导 致 有 效 置 信 带 的 严格 结果 . 

欠 光 滑 ， 在 构造 置信 集 时 , 一 种 对 付 偏 倚 问 题 的 办 法 是 欠 光 滑 ，Hall (1992b), 
Neumann (1995), Chen and Qin (2000), Chen and Qin (2002) 讨论 了 这 个 问题 . 这 
里 简要 讨论 Chen and Qin 的 结果 . 

E nle) 为 使 用 带宽 h 的 局 部 线性 估计 , 假定 核 K 在 [-1,1] 上 有 支撑 . > 


a;(a/h) = i uw K(u)du, 


sr 11, (2-X% =) fle) 
Beda (GE) R= ay 
a Bk (pe) ley 
(a) = SI ; 
fola) 


Ia) =ñ) + aj ER, 
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这 里 ， 


/天 
f Noa(z/h) — uon (2h) K?(u)du 
vs/ 有) = = 7 
[ao(@/yaa(a/h) — aR ah) 
欠 光 滑 消除 了 浙 近 偏 倚 , 这 意味 着 应 该 取 nh — 0. 假定 的 确 取 nhs — 0, 并 限 
于 某 些 正则 条 件 , Chen and Qin (2002) 表明 , 在 内 部 点 ， 


P(r(z) € I(z)) =1-a+0 (a +h?’ + 去 ) (5.152) 
而 在 接近 边界 处 ， 
P(r(z) € I(x) = 1-040 (nh? +h+ Z) (5.153) 


有 趣 的 是 , 局 部 线性 回归 消除 了 7, 的 边界 偏 倚 , 但 覆盖 概率 在 边界 附近 很 差 . BE 
概率 的 精度 缺乏 均匀 性 的 问题 可 以 用 Chen and Qin (2000) 的 方法 处 理 . 他 们 建议 
的 置信 区 间 为 


{0: £(0) < ca}, (5.154) 
这 里 , co 为 x? 随机 变量 的 上 a 分 位 点 ， 


€(0) = 25 log(t + (0) Wi(¥; — 0)), 
i=l 


和 (9) 定义 为 x i j 
W;(Y: — 0 ws 
> 1+ MOW(T -0 
ZT— Xi (2 — Xi)sn1 
wim x (25,25) pea, 
及 


假定 取 hns 一 0, 并 且 限 于 某 些 正则 条 件 , Chen and Qin (2002) 表明 , 在 所 有 x, 


P(r(z) ENa) =1-a+0(uie +1247), (5.155) 


在 使 覆盖 误差 最 小 的 意义 上 , 最 优 带宽 为 


h =$ 


na 


不 幸 的 是 , 常数 c 依赖 于 未 知 函数 ~ 而 具体 实施 看 来 还 是 一 个 未 解决 的 研究 问题 . 
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5.14 文献 说 明 


关于 非 参数 回归 的 文献 非常 多 ， 作为 好 的 开始 点 ， 可 参看 Fan and Gijbels 
(1996), Härdle (1990), Loader (1999a), Hastie and Tibshirani (1999), Hastie et al. 
(2001)， 一 个 好 的 关于 样 条 的 理论 资源 为 Wahba (1990), 还 可 参考 Hastie et al. 
(2001) 和 Ruppert et al. (2003). Loader (1999a), Fan and Gijbels (1996) 详尽 讨论 
了 局 部 回归 和 局 部 似 然 . Fan and Gijbels (1995) 讨论 了 变化 带宽 选择 . 


5.15 W 录 


管 公式 (5.100) 的 推导 . 令 W(z) = Sainte), 并 回忆 ||T(2)||? = ro = 
1 这样, 对 每 个 v, 向 量 T(z) 是 在 单位 球面 上 因为 Z = (Z1,…, Za) 是 多 元 正 态 
的 ， 


P(sup W (z) > c) =P(sup(Z, T(z)) > c) 


=P (se (rap) > ga) 


z 六 “Pp (sup (U, T(z)) > =) h(v)dy, 


RE U = (Ur, Un) 为 在 n 一 1 维 单位 球面 5 上 的 均匀 分 布 , 而 h(y) BA n SE 
em X2 分 布 密度 . 因为 |U -T(2)||? = 2(1- (U, T(2))), 可 以 看 到 sup(U, T(x)) > 


Fi 当 且 仅 当 U € tube(r, M), 这 里 , r = 20 — cy), M = {T (x): z € X} 是 在 
球面 5 上 的 一 个 流 形 ， 


tube(r, M) = {u: d(u,M) <r}, 


dlu, M) = inf lu — To]. 


P (sup (U,T(2)) > 5) =P(U € tube(r, M)) 
_ 体积 (tube(r, M)) 


n 
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这 里 An = 2x"/?/P(n/2) 为 单位 球面 的 面积 . 关于 体积 (tube(r,M)) 的 公式 是 
Hotelling (1939) 与 Naiman (1990) 给 出 的 , 为 


no GE P(B 02 >w)+ lo $EP(Bia(n-2)2 >w’), 
这 里 , w = c/ Vy. 把 这 个 插入 积分 , 并 忽略 阶 数 小 于 e7? 的 项 , 得 到 (5.100). 
该 公式 还 可 以 用 Rice (1939) 的 上 穿 理论 (upcrossing theory) 得 到 . 具体 地 , 如 
RW 是 在 [0,1] 上 的 一 个 高 斯 过 程 , 而 且 如 果 Ne 表示 W 上 穿 过 c 的 次 数 , 那么 


P (sw W(a) > 9 =P(N. > 1 或 者 W(0) > c) 
<P(Nc > 1) + P(W(0) > c) 
<E(N.) +P(W(0) > o). 


因为 W(0) 有 正 态 分 布 , 第 二 项 能 够 很 容易 计算 出 来 . 再 者 , 在 W 为 光滑 的 条 件 
下 ;有 
E(Ne) =f f ype(c, y)dydt, (5.156) 


这 里 , pe 为 (W(t), W(t) 的 密度 . 


5.16 练 习 


1. 在 例 5.24 中 , 构造 光滑 矩阵 L, 并 验证 v = m. 

2. 证 明定 理 5.34. 

3. 从 本 书 的 网 站 上 得 到 关于 在 法 院 工作 中 收集 的 玻璃 碎片 的 数据 . 令 Y 为 折射 指数 , 并 且 
令 z 为 铝 成 分 (第 4 个 变量 )， 实 行 非 参数 回归 来 拟 合 模型 Y = r(x) + e 利用 下 面 的 估计 : 
(i) 回归 直方 图 ; (ii) 核 ; (ii) 局 部 线性 ; (iv) 样 条 . 在 每 种 情况 , 利用 交叉 验证 来 选择 光滑 程度 ， 
估计 方差 , 为 你 的 估计 构造 95% 置 信 带 , 挑 出 z 的 一 些 值 , 而 且 对 每 个 值 , 对 每 种 光滑 方法 , 点 
出 有 效 的 核 . 可 视 化 地 比较 有 效 核 . 

4. 从 本 书 网 站 得 到 摩托 车 数据 . 协 变量 为 时 间 (单位 : ms), 响应 变量 为 撞击 时 的 加 速度 . 利 
用 交叉 验证 及 局 部 线性 回归 来 拟 合 一 个 光滑 曲线 . 

5. 表明 , 在 关于 r(x) 的 合适 的 光滑 假定 下 , 方程 (5.89) 的 3? 是 o? 的 一 个 相合 估计 . 

6. 证 明定 理 5.34. 

7. 证 明定 理 5.60. 

8. 求 出 使 方程 (5.86) 中 的 估计 为 相合 估计 的 条 件 . 

9. 考虑 练习 3 中 的 数据 . 考察 该 拟 合 为 带宽 h 的 函数 . 为 此 , 对 许多 h 的 值 , 点 出 拟 合 值 . 
对 所 有 拟 合 加 上 置信 带 . 如 果 你 感觉 很 有 雄心 , 读 Chaudhuri and Marron (1999), 并 应 用 该 方 
W- 
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10. 利用 在 (0, 1) 上 的 5 个 等 距 结 点 , 对 于 M =1,---,5, 构造 M 阶 B 样 条 基 . 点 出 基 函 

数 . - 
11. 从 本 书 网 站 得 到 摩托 车 数据 . 用 等 距 结 点 拟 合 一 个 三 次 回归 样 条 . 利用 缺 一 交叉 验证 来 
选择 结 点 的 数目 . 现在 再 拟 合 一 个 光滑 样 条 , 并 比较 拟 合 . 

12. 回忆 定义 在 例 5.63 的 Doppler 函数 . 从 模型 Y: = r(zi) + oe: 生成 1000 个 观测 值 , 这 
里 zi = i/n, e ~ N(0,1). HF o = 0LDc= 1 和 = 3 作出 三 个 数据 集 . 点 出 数据 利用 局 部 
线性 回归 估计 该 函数 . 做 交叉 验证 得 分 对 带宽 的 点 图 . 画 出 拟 合 函数 . 找到 并 画 出 95% RN. 

13. 重复 前 一 个 问题 , 但 是 用 光滑 样 条 . 

14, 从 本 书 网 站 下 载 空气 质量 数据 集 . 在 模型 中 把 臭氧 作为 温度 的 函数 , 使 用 核 回归 , 选择 
带宽 用 交叉 验证 , 广义 交叉 验证 , Cy 和 插入 法 , 比较 这 些 拟 合 . 

15. HE E= Ayes, 令 Yew Nuyl) 为 独立 观测 值 . 求 使 得 下 面 每 一 个 惩罚 平方 和 最 小 的 
估计 n 

(a) D-a) +a a, 


加 EY =m)? +A ll, 
= 各 


© D-a +A i = 0). 
fai ma 
16. 表明 一 个 p 阶 局 部 多 项 式 光滑 器 重新 产生 p 阶 多 项 式 . 
17. 假定 r : [0,1] 一 R 满足 下 面 的 Lipschitz 条 件 : 
“sup Ir(y) -r(2)| < Lly- z), (6.157) 
O<zcy<l 

这 里 , L> 0 为 已 给 的 . 所 有 这 样 函 数 的 类 用 Fiy(L) 表示 . 如 果 r E Fip(L), WA, 基于 带宽 
h 的 核 估计 Fa 的 最 大 偏 倚 是 什么 ? 

18. 在 玻璃 数据 (练习 3) .上 , 实行 分 位 数 回归 , 这 里 取 a = 1/2. 

19. 证 明 , 对 于 局 部 多 项 式 光滑 器 的 权重 Li(z) 对 某 个 多 项 式 


Pi(z) = ao +01 (24 — 2) +-+- + ap (ai — 2)?, 


满足 
(a) = x (<) P(z). (5.158) 
再 省 , 如 果 删 除 第 i 个 观测 值 (zi, Vi), 结果 的 权重 满足 (5.32). 这 样 , 当 把 (5.32) eh 
的 定义 时 , 可 以 导出 该 权重 的 这 个 形式 . 
20. 假定 对 某 光滑 核 K, li(z) = K((z 一 zi) /及 ), WA z: 是 等 距 的 . 如 (5.101) 那样 定义 
Ko, 表明 , 如 果 忽 略 边 界 效应 ， 
rox (=$) KI) 
h J IKI’ 


7 
RE, lol? = 人 wjdr 


5.16 练 习 "99. 


21. 表明 如 何 为 在 (5.143) 中 给 出 的 导数 估计 PO 构造 一 个 置信 带 . 提示 : 注意 , 估计 是 线 
性 的 ， 并 模仿 对 全.(Z) 的 置信 带 的 构造 

22， 从 本 书 网 站 下 载 空气 质量 数据 集 ， 在 模型 中 把 臭氧 当成 阳光 , 风 , 温度 的 函数 ， 利 用 
(i) 多 元 局 部 线性 回归 ; (ii) 投影 寻 踪 ; (iii) 适应 回归 ; (iv) 回归 树 ; (v) MARS. 比较 结果 . 

23. 解释 如 何在 可 加 模型 中 构造 置信 带 . 把 它 应 用 于 练习 22 的 数据 . 

24. 令 六 (zh za) = D> Yili(z1,z2) 为 一 个 多 元 回归 函数 r(z1,z2) 的 一 个 线性 估计 . 假定 

气 
想 检验 协 变量 z 能 够 从 回归 中 去 掉 的 假设 . 一 种 可 能 性 是 形成 一 个 形 为 入 (zi) = D> Vii (1) 
的 线性 估计 ,而 且 计算 = 
T= Faas, xi) —Fn(x1:)). 


i=1 

(i) 假定 真实 模型 为 Yi = r(z1:) + 6i, KB, ei ~ N(0,07). 为 简单 计 , 把 o 当成 已 知 . 求 关 
FT 的 分 布 的 一 个 表达 式 . 

Gi) 在 (i) 中 的 零 分 布依 赖 于 未 知 函数 r(z1). 如 何 能 估计 该 零 分 布 . 

(iii) 从 (i) 中 的 模型 模拟 产生 数据 (使 用 任何 喜欢 的 函数 7(z1)), 并 且 看 在 (ii) 中 所 建议 的 
方法 是 否 近 似 该 零 分 布 . 
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& 下 为 一 个 分 布 , 有 概率 密度 f= FS 
Xi Xnw F 
为 一 个 来 自 F 的 一 个 IID 样本 ， 非 参数 密度 估计 (nonparametric density estima- 
tion) 的 目标 就 是 在 尽 可 能 少 的 关于 f 的 假定 下 来 估计 f. RMB fr. 像 非 参 


数 回归 一 样 , 估计 将 依赖 于 光滑 参数 h, 认真 选择 h 是 重要 的 . 
6.1 例 (Bart Simpson) ”图 6.1 的 上 左 小 图 显示 了 密度 


Le ; 
f(E) = 342:0, 1) + 0 224: 6/2 = 1,1/10), (6.2) 
j=0 
1.0 1.0 
0.5 0.5 
0.0 00{LL OO wm 
= 0 3 -3 0 3 
真实 密度 欠 光 滑 
1.0 1.0 
0.5 0.5 
0.0 ~ 00 F 
As 0 3 3 0 3 
刚好 合适 过 光滑 


图 6.1 例 6.1 的 Bart Simpson 密度 
EE: 真实 密度 . 其 他 图 是 基于 抽取 的 n= 1000 个 数据 点 的 核 估计 . 下 左 : 基于 缺 一 交叉 验证 选择 的 带宽 
h=0.05. 上 右 : 带宽 为 h/10. FA: 带宽 为 10h. 
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这 里 , O(a; u0) 表示 均值 为 u, 标准 差 为 o 的 正 态 密度 . 虽然 将 称 这 个 密度 为 Bart 
Simpson 密度 , Marron and Wand (1992) 称 这 个 密度 为 “ 爪 (the claw)”. 基于 从 f 
抽取 的 1000 个 数据 点 , 计算 了 一 个 核 密度 估计 ; 这 将 会 在 本 章 晚 些 时 候 描述 . 上 右 
小 图 基于 一 个 小 的 带宽 h 它 导 致 从 光滑 . 下 右 小 图 基于 一 个 大 的 带宽 h, CRB 
过 光滑 . 下 左 小 图 是 基于 使 估计 的 风险 最 小 的 带宽 h, 它 导致 一 个 合理 得 多 的 密度 
估计 . n 


6.1 交叉 验证 
将 按照 风险 , 或 者 积分 的 均 方 误差 R= EL) 来 评估 一 个 估计 Fh, 的 质量 , 这 
里 


L= fR- safar 
为 积分 的 平方 误差 损失 函数 . 估计 将 依赖 于 某 光 滑 参 数 h; 将 选择 h 以 使 风险 的 一 
个 估计 最 小 . 通常 估计 风险 的 方法 是 缺 一 交叉 验证 (leave-one-out cross-validation). 
密度 估计 的 细节 是 不 同 于 回归 的 . 对 于 回归 , 交叉 验证 得 分 定义 为 》 Y-K- l), 


但 在 密度 估计 中 , 没有 响应 变量 Y. 因而 , 如 下 进行 : i 
损失 函数 ( 记 为 h 的 函数 , 因为 Fy 将 依赖 于 某 光 滑 参数 h) 为 


Lh = /ln - faas 


Š J Pwas—2 / Fala) f(a) + / f2(z)dz, 
最 后 一 项 不 依赖 于 h, 因此 使 损失 最 小 等 价 于 使 下 式 的 期 望 值 最 小 : 
IH) = f Rez -2 f otoz. (6.3) 

E(J(h)) 称 为 风险 , 虽然 它 与 真正 的 风险 差 一 项 | Pee. 
6.4 定义 ”风险 的 交叉 验证 估计 (cross-validation estimator of risk) 为 


Fm) f [a] ee 2° Fo, (65) 
i=1 


RE, fy 为 在 删 去 第 i 个 观测 之 后 得 到 的 密度 估计 . 称 Ih) 为 交叉 验证 得 分 | 
或 估计 的 风险 . 
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62 直方 图 


最 简单 的 非 参数 密度 估计 恺 怕 就 是 直方 图 了 . 假定 /在 某 个 区 间 有 其 支撑 . 不 
失 一 般 性 , 把 该 区 间 取 为 [0,1]. $ m 为 一 个 整数 , 定义 箱 (bin) 


1 1 2 m-1 
mft), m= [22), = Ea ea 
定义 带宽 (bandwidth)h = 1/m. 令 Y; 为 在 B; 中 的 观测 数目 , $ A = Yj/n 及 
p= f, Hudu 
atii tine 
Da Bi I(x € B;). (6.7) 


为 理解 该 估计 的 动机 , 注意 , 对 于 z € By 及 当 h 很 小 时 ， 


fau 
ERa) = (2). 
6.8 例 图 6.2 BRTETRARAIE r n= 1266 个 数据 点 的 三 个 不 同 的 
80 80: 
40 40. 
0 e 0 
0.0 0.1 02 0.0 0.1 0.2 
KINE 刚好 合适 
80: 
40: 
0.0 0.1 0.2 1 500 1000 
DEM 箱 的 数目 


图 6.2 天 文 数据 的 三 个 直方 图 
上 左 直方 图 有 太 多 的 箱 . 下 左 直方 图 有 太 少 的 箱 . 上 右 直方 图 有 308 个 箱 (由 交叉 验证 选择 ). 下 右 表 示 了 估 
计 的 风险 对 箱 的 数目 的 点 图 . 


6.2 直方 图 - 103 - 


直方 图 . 它们 是 例 4.3 的 数据 . 每 个 点 代表 一 个 “ 红 移 ", 粗 路 地 说 , 这 代表 了 一 个 

星系 离 我 们 的 距离 . 选择 合适 数目 的 箱 需 要 在 偏 倚 和 方差 之 间 找 到 好 的 平衡 . 后 面 ， 

将 看 到 , 上 左 直方 图 有 太 多 的 箱 , 造成 欠 光 滑 , 而 且 有 太 多 的 偏 倚 , 而 下 左 直方 图 有 

太 少 的 箱 , 造成 过 光滑 . 上 右 直方 图 基于 308 个 箱 (由 交叉 验证 选择 ). 该 直方 图 揭 

示 了 星系 存在 着 聚集 . m 
6.9 定理 ”考虑 固定 的 > 和 固定 的 m, 并 令 Bj 为 包含 > 的 箱 . 那么 ， 


ER) =, via) = MOB) (6.10) 


6.11 定理 假定 /为 绝对 连续 的 ,而且 [(f"W))Pdu < co 那么 


Rf) = /vr (Pau + 3 +o +0(2). (6.12) 
使 得 (6.12) 最 小 的 h* 值 为 
1/3 
1 6 
i (6.13) 
n173 [mal 
以 这 样 选择 的 带宽 , 有 
R(fas f) ~ a (6.14) 


RE, C = (3/4)2/3 { J reypa} i 


定理 6.11 的 证 明 在 附录 中 . 可 以 看 到 , 用 一 个 最 优选 择 的 带宽 , 风险 以 n-2/3 
的 速率 递减 到 0. 一 会 将 要 看 到 , 核 估计 以 较 快 的 速率 n-4/5 收敛 , 而 且 在 某 种 意 
义 上 , 不 可 能 再 有 更 快 的 速度 了 , 参看 定理 6.31. 关于 最 优 带 宽 h* 的 公式 有 理论 意 
X, 但 是 在 实践 中 并 不 好 用 , 因为 它 依赖 于 未 知 函 数 f 在 实践 中 , 利用 在 6.1 节 中 
描述 的 交叉 验证 . 有 一 个 简单 的 计算 交叉 验证 得 分 7(h) 的 公式 . 
6.15 EB 下面 恒等式 成 立 : 
n+l 


> 2 
J) = 5G aei D> La. (6.16) 


6.17 例 ”在 天 文 例子 使 用 交叉 验证 . 发 现 m = 308 是 一 个 近似 的 最 优 值 . 在 
6.2 的 上 右 小 图 是 用 m= 308 个 箱 构造 的 . 下 右 小 图 显示 了 估计 的 风险 , 或 者 更 
确切 地 说 是 也 对 箱 的 数目 的 点 图 . e 
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下 面 , 想 要 f 的 一 个 置信 集 . 假定 fa 为 有 m 个 箱 的 直方 图 , 而 且 带 宽 h = 1/m. 
.由 于 在 5.7 节 解 释 过 的 理由 , 很 难 对 f 构造 一 个 置信 集 . 因此 , 将 基于 直方 图 的 结 
果 作 出 关于 f 的 置信 陈述 . 这 样 , 定义 


Fale) = E(fa(z)) = > See < Bs), (6.18) 
j=l 


这 里 , pi = Í f(u)du. 把 了 ,(z) 看 成 的 “直方 图 化 的 " 形式 . 回忆 , 如 果 条 件 


P(x) < F(x) < wu(z)， 对 所 有 的 z 成 立 ) >1-a ` (619) 


成 立 , 则 函数 对 (0, u) HEF, 的 一 个 1 一 a 置信 带 . 可 以 像 在 (5.100) 中 那样 的 推理 ， 
但 选择 较 简单 的 路 子 . 

6.20 EH 4 mm = m(n) 为 在 直方 图 fh PHM. BE, Yn 一 co HH, 
m(n) > co 及 m(n)logn/n > 0. 定义 


£,(2) = (max {Vie - oh)’, 
Un(x) = (VEG+e) ， (6.21) 


= Za/(2m) /Tm 
ceso y= (6.22) 


那么 (tn(z),un(z)) 为 Fn 的 一 个 近似 的 1 一 a 置信 带 . 

证 明 ”这 里 是 证 明 的 一 个 概要 . 由 中 心 极限 定理 , 并 假定 1 -pj ~ 1,9; © 
N(pj p(l — p;)/n). BER delta WE, VA ~ N(v 历 ,1/(4n)). TE, 那些 py 为 近 
似 独立 的 . 因此 ， 


这 里 ， 


2Vn (VB - vii) = Za, (6.23) 
这 里 , 21,…,Zm ~ N(O,1). & 
4A={4r(z) < Fal) < un(z)， 对 所 有 的 d 成 立 } 


{VE - VF] <4}, 


na) (op VAE- Ve) 


>) 
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=P (max2vi| Vis - val > zajam) 


wi 
=P (masz > zajem) < JOP (|Z;| > za/(2m)) 
j= 


> a 
=F 2 =a. m 
~ 
6.24 例 图 6.3 显示 了 对 天 文 数据 的 一 个 95% 置 信和 包 络 . 看 到 , 即使 有 1000 
个 数据 点 , 关于 f 仍然 有 被 很 宽 的 带 所 反映 的 严重 不 确定 性 . m 
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AMAN: es ae SA 
0.0 Oo. 0.2 
图 6.3 ”对 天 文 数据 的 一 个 95% 置 信和 包 络 , 用 了 m = 308 个 箱 


6.3 ” 核 密度 估计 


直方 图 不 光滑 . 在 这 一 节 讨论 核 密度 估计 , 它 要 光滑 些 , 而 且 收敛 到 真实 密度 
要 快 些 . 回忆 术语 核 为 满足 (4.22) 所 给 条 件 的 任意 光滑 函数 K. 关于 核 的 例子 , 见 
4.2 W. 

6.25 定义 “给 定 一 个 核 K 和 一 个 称 为 带宽 (bandwidth) 的 正 数 h, 核 密度 估 ， 
计 (kernel density estimator) 定 义 为 


fala) = = 7K (z =) r (6.26) 


这 等 于 在 每 个 点 X; 都 放 上 光滑 掉 的 一 块 大 小 为 1/n 的 质量 , 见 图 6.4. 

与 核 回归 一 样 , 对 核 K 的 选择 并 不 重要 , 但 对 带宽 h 的 选择 则 是 重要 的 . 图 
6.5 显示 了 用 几 种 不 同 带宽 的 密度 估计 (和 图 4.3 相同 ). 再 看 图 6.1. 可 以 看 到 fn 
对 h 的 选择 是 何等 敏感 . 小 的 带宽 给 出 很 粗糙 的 估计 , 而 大 的 带宽 给 出 较 光滑 的 估 
th. 一 般 来 说 , 将 令 带宽 依赖 于 样本 量 , 因此 记 hn. FI fa 的 一 些 性 质 . 
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-10 -5 0 5 10 


图 6.4 一 个 核 密度 估计 fa 
在 每 一 点 z, fale) 为 以 数据 点 为 中 心 的 核 的 平均 . 数据 点 由 短 竖 直线 表示 . 这 里 核 没 有 按 比 例 画 . 


~ 
Mii 


0.0 0.1 0.2 0.0 01 02 
红 移 红 移 
二 
ý n 
所 
二 
0.0 01 02 0.000 0.008 
红 移 h 


图 6.5 天文 数据 的 核 密度 估计 和 估计 的 风险 
上 左 : 过 光滑 . 上 右 : 刚好 合适 (带宽 由 交叉 验证 选择 ). FA: 从 光滑 . FA: 作为 带宽 h 的 函数 的 交叉 验 
证 曲线 . 选择 的 带宽 为 曲线 最 低 点 的 h. 
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6.27 定理 ”假定 在 z 连续 , 而 且 当 n 一 oc 时 , hn 一 0 及 nhn 一 oo. 那么 
> P 
Fala) È f). 

6.28 EH 4 Re = E(f(z) - fle)? 为 在 z 点 的 风险 , 并 令 R= fea 
表示 积分 的 风险 ， 候 定 S 为 绝对 连续 , 并 且 [zjPdz < 00, BH K WR 
(4.22). 那么 


fe) /edz 


nhn 


Re = Hohi" + +0(2) +o, 


2(z)dz 
R= 攻克 [iroa + jeu +0 () +O), (6.29) 


这 里 of = J Z2K (x)dz. 
HEPA 记 Kh(z,X) =h-1K((z — X)/h) 及 falz) = n! Y Kala, Xi). 这 样 ， 


Elfa(x)] = E[Ka(x, X)] 及 V[fa(e)] =n“ V[Ka(2, X)). 现在 由 于 f K(z)dz =1 及 


Jroa =0, 


Elta X= {hx (E) soar 
J K(u)f(w — hu)du 
= [ko [r02)~ map) + FE pre) +] au 
= f(x) + e f'(a) a8 Bridie 


偏 倚 为 
E(Kn, (2, X)) — f(z) = sok s"(2) + Oh). 


由 类 似 的 计算 得 到 ， 


Vifa(a)] = Bai | i +0(2). 


BARRA FA LA, 这 样 就 得 到 第 一 个 结果 . 第 二 个 结果 由 第 一 个 结果 
的 积分 得 到 . a 
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WR (6.29) 作 关于 h 的 微分 , 并 设 它 为 0, 看 到 , 渐 近 最 优 带 宽 为 


这 里 , oi = j: Muminas f K(z)?dz, 及 A(f) = f Uf" (a) da, 这 告诉 我 们 下 
面 的 信息 : 最 好 的 带宽 按照 n-W5 的 速率 递减 . 把 h, 代入 (6.29), 可 以 看 到 , 如 果 
利用 最 优 带 宽 , 那么 R= O(n-4/5). 正如 已 经 看 到 的 , 直方 图 按照 速率 O(n-2/3) 收 
伍 表 明 在 收敛 率 上 , 核 估计 要 优 于 直方 图 . 按照 下 面 的 定理 , 不 存在 收敛 速率 快 于 
O(n-4/5) 的 估计 了 . 证 明 可 参见 van der Vaart (1998) 的 第 24 章 . 

6.31 定理 令 丰 为 所 有 概率 密度 函数 的 集合 , 并 令 SM 表示 f 的 m 阶 导 
数 . 定义 
Fie) = fs EF: f sm ar < e} a 


对 任意 估计 fa 
2m/(2m+1) 
cP 5 [EO - s(a)Paz > (2) ; (6.32) 


这 里 ,5b > 0 为 一 个 仅仅 依赖 于 m 和 c 的 普遍 常数 . 

在 上 述 定理 中 , 特别 取 m = 2, 看 到 n-4/5 是 可 能 的 最 快速 率 . 

在 实践 中 , 能 够 用 交叉 验证 来 选择 带宽 , 但 首先 描述 另外 一 种 方法 ; 它 有 时 用 
于 f 被 认为 非常 光滑 的 情况 . 具体 地 说 , 在 理想 化 的 7 为 正 态 的 假定 下 , 从 (6.30) 
计算 he. 这 得 到 ju = 1.06cn-1/5. 通常 , c 由 min{s,Q/1.34} 来 估计 , 这 里 s 为 样 
本 标准 差 , 而 Q 为 四 分 位 数 间距 @Q. 如 果真 实 密度 是 非常 光滑 的 , 这 样 选择 的 h, 运 
作 得 很 好 , 它 称 为 正 态 参 照 规则 (normal reference rule). 


ERS RA 
对 于 光滑 密度 和 一 个 正 态 核 , 利用 带宽 
_ 1.066 
ne nls 
这 里 ， 6 
f= mi { sa 


© 回忆 , 四 分 位 数 间距 为 第 75 HAAMER 25 百 分 位 点 - 除 以 1.34 的 理由 是 : 如 果 数 据 来 自 
N(u, ac2), 那么 Q/1.34 为 o 的 相合 估计 . 
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因为 并 不 希望 一 定 要 假定 f 是 非常 光滑 的 , 通常 最 好 用 交叉 验证 来 估计 h. E 
忆 6.1 节 , 交叉 验证 得 分 为 


In = | Roar- = FX), (6.33) 


i=l 


这 里 , fi 表示 由 删除 X: 而 得 到 的 核 估计 . 下 面 定理 给 出 7 的 一 个 较 简单 的 表示 . 
6.34 EB TER A>, 


E (Fa) = E(J(h)). 


WH, 


In) = ibe Er (= = x) 4 = K(0) +0 (3) ; (6.35) 

这 里 K*(z) = KO (2) -2K (2), 而 K®(2) = f K(z — y)K (y)dy. 

6.36 说 明 ” 当 K 为 一 个 N(0,1) 高 斯 核 时 , 那么 K(z) 为 N(0,2) 密度 . 还 
将 指出 , 用 快速 Fourier 变换 能 很 快 算出 估计 fha 以 及 交叉 验证 得 分 (6.35)， 参看 
Silverman (1986) 的 61~66 页 . 

对 于 交叉 验证 合理 性 的 一 个 证 明 被 下 面 出 色 的 Stone (1984) 定理 给 出 . 

6.37 定理 (Stone CH) Bef 是 有 界 的 . > f 表示 带宽 为 h 的 核 估计 , 并 
令 久 表示 由 交叉 验证 选择 的 带宽 . 那么， 


[| [1® -Fa] i 


a a, ` (6.38) 
int f Fe- Ro] ae 

图 6.5 的 右上 图 的 密度 估计 所 用 的 带宽 是 基于 交叉 验证 的 . 在 这 个 例子 , 它 运 
行 得 很 好 , 但 是 , 自然 有 很 多 有 问题 的 例子 . 用 不 着 假定 , 如 果 估计 广 为 波 动 的 , WS 
么 交叉 验证 会 使 你 失望 . 眼睛 不 是 判断 风险 的 好 法 官 . 

另 一 个 选择 带宽 的 方法 是 插入 带宽 (plug-in bandwidth)， 其 思想 如 下 ， 方 程 
(6.30) 给 出 了 ( 渐 近 ) 最 优 带宽 . 在 公式 中 的 仅 有 的 未 知 量 是 Af) = | if"(a)PPde. 
如 果 有 f” 的 一 个 估计 P, 那么 能 把 这 个 估计 插入 公式 来 求 最 优 带宽 he 关于 这 个 
及 其 他 类 似 的 方法 , 有 大 量 有 意思 的 文献 . 这 个 方法 的 问题 在 于 , 估计 f 比 估计 f 
要 难 的 多 . 实际 上 , 需要 对 f 作 较 强 的 假定 来 估计 f". 但 是 , 如 果 作 了 这 些 强 假定 ， 
那么 , (通常 的 ) 对 f 的 核 估计 就 不 合适 了 . Loader (1999b) 详细 地 研究 了 这 个 问题 
而 且 提 供 了 证 据 , 表明 插入 带宽 方法 可 能 是 不 可 靠 的 . 还 有 些 方法 对 插入 规则 做 了 
修正 . 参见 Hjort (1999). 
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核 方 法 的 一 个 推广 是 适应 性 核 (adaptive kernel), 它 对 于 每 个 点 z, 使 用 不 同 的 
带宽 h(x). 人 们 还 能 用 不 同 的 带宽 h(zi) 于 每 个 数据 点 . 这 使 得 估计 更 加 灵活 , 而 
且 允 许 其 适应 于 光滑 性 变化 的 区 域 . 但 是 , 选择 许多 带宽 而 不 仅仅 是 一 个 , 使 得 现 
在 有 了 非常 困难 的 课题 . 更 多 的 关于 适应 性 方法 的 内 容 , 请 看 第 8 章 . 

对 于 核 估 计 构 造 置信 带 比 回归 更 复杂 . 在 6.6 节 讨 论 一 种 可 能 的 方法 . 


6.4 局 部 多 项 式 


在 第 5 章 , 可 以 看 到 核 回归 承受 着 边界 偏 倚 的 问题 , 而 且 可 以 利用 局 部 多 项 式 
来 减轻 这 种 偏 倚 . 这 对 核 密度 估计 也 是 一 样 . 但 是 , 什么 密度 估计 方法 相应 于 局 部 
多 项 式 回归 呢 ? 由 Loader (1999a) 与 Hjort and Jones (1996) 发 展 的 一 种 可 能 性 就 
是 利用 局 部 似 然 密度 估计 . 

对 数 似 然 的 通常 定义 为 L) = Slog 有 (Xi), 把 这 个 定义 做 如 下 推广 是 很 方便 

izi 
的 : 


L(f) = Dlogf(Xi)—n [ f(u)du 一 i : 
i=l 


当 f 积分 为 1 时 , 第 二 项 为 零 . 包括 了 这 一 项 使 得 能 够 在 fioa =1 的 限制 下 ， 
在 所 有 非 负 的 / 范围 中 把 C(7) 最 大 化 . 下 面 是 局 部 对 数 似 然 . 
6.39 定义 .给 定 一 个 核 KK 及 带宽 h, 在 目标 值 z 处 的 局 部 对 数 似 然 为 


Le = Èx (==) log (Xi) =n fK (42) f(ujdu. (6.40) 


上 面 定义 是 对 一 个 任意 的 密度 f 的 . 感 兴趣 于 用 在 r 邻 域 的 一 个 多 项 式 来 近 
似 log f(u). 于 是 , 记 


log f (u) ~ P,(a,u), (6.41) 


这 里 ， 


(z=u)? 
po” 


把 (6.41) 代入 (6.40) 得 到 局 部 多 项 式 对 数 似 然 (local polynomial log-likelihood) 


P,(a,u) = ao +a (T — u) +--+ + ap (6.42) 


Lala) = Èx (==) P,(a, X;) —n f K (=) eP: qu. (6.43) 


6.5 多 元 问题 111. 


6.44 EX 4 G = (G0,…,Gp)7 使 Lz(a) 最 大 . 局 部 似 然 密度 估计 (local 
likelihood density estimate) 为 


fala) = eP @2) = eao. (6.45) 


6.46 说 明 。” 当 p=0 RY, 所 就 化 简 为 核 密度 估计 . 


6.5 多 元 问题 


现在 假定 数据 是 a 维 的 , W X; = (Xa,…, Xia). 正如 在 前 两 章 所 讨论 的 , 虽然 
维 数 诅咒 意味 着 估计 的 精确 度 随 着 维 数 增长 而 迅速 恶化 , 在 理论 上 很 容易 把 这 个 方 
法 推广 到 高 维 . 

核 估计 能 够 容易 地 推广 到 d HE. 最 经 常 地 , 利用 乘积 核 


n d _xX. t 
fle) = fú K 29} . (6.47) 


i=l | j=1 


风险 为 


| [fare] (6.48) 


d 
1 2 
R% 7K È n f Hear + > nn f fhada + aec 
jmi Gtk 


这 里 , f;; 为 f 的 二 阶 偏 导数 ， 最 优 带宽 满足 hi = ON 4+d)， 它 导致 阶 数 为 
R= O(n) 的 风险 . 再 一 次 看 到 风险 随 着 维 数 而 迅速 增加 . 为 了 领会 到 这 个 
问题 有 多 么 严重 , 考虑 下 面 的 由 Silverman (1986) 给 出 的 表 , 它 显示 了 当 密 度 是 多 
TES, 而 且 选取 了 最 优 带 宽 时, 要 确保 一 个 相对 均 方 误差 在 0 点 处 小 于 0.1 所 需 
要 的 样本 量 . 


维 数 样本 量 
1 4 
2 19 
3 67 
4 223 
5 768 
6 2790 
7 10700 
8 43700 
9 187000 


5 
g 
g 
8 
3 
8 
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这 是 一 个 坏 消息 . 如 果 企 图 去 估计 一 个 高 维 问题 的 密度 , 在 没有 报告 置信 带 时， 
不 应 该 报告 结果 . 虽然 不 在 这 里 谈论 细节 , 在 6.6 节 所 描述 的 置信 带 方法 能 够 推广 
到 多 元 情况 . 这 些 置信 带 随 着 d 的 增加 而 变 得 非常 宽 . 问题 不 在 于 估计 方法 , 而 在 
于 宽 的 置信 带 反映 了 问题 的 困难 性 . 


6.6 ”把 密度 估计 转换 成 回归 


把 一 个 密度 估计 问题 转换 成 一 个 回归 问题 有 一 个 有 用 的 技巧 . 这 样 , 可 以 利用 
前 面 章节 的 所 有 回归 方法 . 这 个 技巧 不 是 新 的 , 只 是 Nussbaum(1996a) 和 Brown et 
al. (2005) 最 近 把 它 严格 化 了 . 转换 到 了 回归 , 就 能 使 用 在 前 面 章 中 发 展 的 工具 , 包 
括 构 造 置信 带 的 方法 . 

假定 X1,…, Xn ~ F, 密度 f = F. 为 简单 计 , 假定 数据 在 [0,1] 区 间 上 . 把 
(0, 1] 区 间 分 成 个 相等 的 箱 , 这 里 人 = n/10. 定义 


y= fF x m+, (6.49) 
这 里 ，N 为 在 第 j 个 箱 中 的 观测 值 数目 那么 ， 
Yj ~ r(tj) + oe (6.50) 


RH e ~ N(0,1),0 = (Ere) = VF), 而 ty ER j 个 箱 的 中 点 . 为 了 看 为 什 
么 , & B; 表示 第 ; 个 箱 , 并 注意 


N; ~ Poisson GA fi (ae) ~ Poisson (2). 


因而 E(N;) = V(Nj) ~ nf (t;)/k. 应 用 delta 方法 , 看 到 EY) ~ VFG) R V(¥j) ~ 
k/(4n). 
已 经 把 密度 估计 问题 转换 成 有 等 空间 z; 和 常数 方差 的 非 参数 回归 问题 . 现在 
能 够 应 用 任何 非 参 数 回归 方法 来 得 到 一 个 估计 n, 并 且 取 
R r+ (2)? 
Majma a 
f ptas 
这 里 , r+(z) = max{P(z),0}. 在 实践 中 , 能 像 第 5 章 那样 构造 置信 带 . 重要 的 是 注 
意 到 把 区 间 分 箱 并 不 是 一 个 光滑 的 步 又, 它 只 是 用 来 把 密度 估计 转换 成 回归 . 


6.51 例 图 6.6 显示 了 这 个 方法 对 来 自 Bart Simpson 分 布 的 数据 的 应 用 . 上 
面 的 小 图 显示 了 交叉 验证 得 分 . 下 面 的 小 图 显示 了 估计 的 密度 和 95% 置 信 带 ， m 
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0.54 


2 0 3 
图 6.6 ”由 回归 做 的 密度 估计 
数据 分 到 箱 , 并 利用 核 估计 于 计数 的 平方 根 . 上 面 的 图 显示 了 利用 有 效 自 由 度 得 到 的 交叉 验证 得 分 ,下 面 的 
图 显示 了 估计 和 95% 置 信 包 络 . 参见 例 6.51. 


6.7 文献 说 明 


核 光滑 是 Rosenblatt (1956) 和 Parzen (1962) 发 明 的 ， 交 叉 验证 方法 源 于 
Rudemo (1982). 关于 密度 估计 的 非常 好 的 两 本 书 是 Scott (1992) 和 Silverman 
(1986)， 关 于 一 个 称 为 尺度 空间 方法 (scale-space approach) 的 不 同方 法 ， 请 参看 
Chaudhuri and Marron (1999) 与 Chaudhuri and Marron (2000). 


6.8 附 录 
定理 6.11 的 证 明 ”对 于 任意 mv € By, 及 对 某 个 在 > 和 之 间 的 F, 
Flu) = fle) + u- aa) 2 a, 
因此 ， 
za? 


m=/ ya- [ro + (u—2)7'(a) + É raa 


=f(a)h+ hf'(a) [+ ( j= 3) z z] +0(88). 
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因此 , b(z) 的 偏 人 为 
ba) =E(fa(a)) — fl) = Ë — f(z) 


E f(z)h+hf'(z) fa E 5) 一 a] + O(h?) ye 


£(@)[h (4- $) -2] +00. 


根据 中 值 定理 , A: WHF, EB; 


ix P(e)de= [rors G -3)- a= +008 
=E h [i (s- 3) -2] +00 


=[F'@) ee 7 = O(n). 


因此 ， 
2 = 2, 3 
f v ad- 六 b2(z)dz + O(h?) 
ms 
-2 G)P zy + OH) 
a 
SE DAE +008) 
j=l 
2 1 
=i OPar + ow)® 
现在 考虑 方差 . 由 中 值 定理 , HRA zj € Bj, pj = JA f(z)az = hf(z;). 因此 , 以 
vz) = VF (2)), 
1 m hoali 
Í ae’ $ v(z)dz = > Pi’ ~ Pi) a 


© BB o(h?) 译 者 注 . 
3 _ LS PQ-Pj) ___ y 
one [ vois f slp HARE. 
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ix le 1 1 
a "Š 2 一 a 2 
Tah? Zv nh? Ls nh nh 2r 


a4, 1 Sed = Ls nfey 
nh mi Ti) = Oh ney a 


- 2-2 f' pe@ae+on] = 3.+0(2). i 
6.9 练 J 


1. 证 明定 理 6.27. 
2. 令 Xi Xn ~ f, HS fa 为 利用 boxcar K 


1 at <a2< a 
K(z) = r 2 s 
o, 其 他 
所 得 到 的 核 密度 估计 . 
(a) 表明 1 p+ 
Ee 7)ay 


K z+(h/2) z+(h/2) a 
vifia)) = 志 { [ws 1080- | ‘eta swa] I 


(b) 表明 , 如 果 当 n — oo 时 ,及 一 0 Bk nh 一 00, 那么 fala) È f(a). 

3. 证 明 , 对 于 直方 图 和 核 密度 估计 , T(h) 为 J(h) 的 一 个 无 偏 估计 . 

4. 证 明 方 程 6.35. 

5. 60 个 公司 的 执行 总 裁 的 工资 数据 可 在 下 面 网 站 得 到 : 
http://lib.stat.cmu.edu/DASL/Datafiles/ceodat/html. 
利用 直方 图 和 核 密度 估计 研究 该 工资 分 布 . 利用 最 小 二 乘 交 叉 验 证 来 选择 光滑 程度 . 再 考虑 正 态 
参照 规则 来 选择 核 的 带宽 . 该 密度 看 来 有 若干 突起 . 它们 是 真 的 吗 ? 利用 置信 带 来 对 付 这 个 问 
题 . 最 后 , 试用 各 种 形状 的 核 , 并 对 得 到 的 结果 作出 评论 . 

6. 从 本 书 网 站 得 到 法 律 工作 中 收集 的 玻璃 碎片 数据 . 使 用 直方 图 和 核 密度 估计 来 估计 第 一 
个 变量 (折射 指数 ) 的 密度 . 利用 交叉 验证 来 选择 光滑 程度 . 用 不 同 的 箱 宽 和 带宽 来 做 试验 . 对 
相似 点 和 不 同 点 作出 评论 . 为 你 的 估计 构造 95% 置 信 带 . 对 于 核 , 用 不 同形 状 的 核 做 试验 . 

7. 考虑 练习 6 的 数据 . 研究 作为 带宽 h 的 函数 的 拟 合 . 为 此 作出 对 许多 h 值 的 拟 合 图 . 对 
所 有 拟 合 加 上 置信 带 . 如 果 你 感觉 有 雄心 , 读 Chaudhuri and Marron (1999), 并 应 用 该 方法 . 

8. 证 明 , 当 多 项 式 的 阶 数 p = 0 时 , 局 部 似 然 密度 估计 化 简 为 核 密度 估计 . 

9. 对 练习 6 的 数据 应 用 局 部 多 项 式 密度 估计 . 

10. 从 Bart Simpson 分 布 (6.2) 产生 数据 ， 比 较 核 密度 估计 与 6.6 节 的 方法 . 试用 下 面 的 
样本 量 : n = 25，50，100，1000. 


第 7 章 ” 正 态 均 值 和 最 小 最 大 理论 


本 章 将 讨论 许多 正 态 均值 问题 (many normal means problem), 它 统一 了 某 些 非 
参数 问题 , 并 且 将 成 为 后 面 两 章 方法 的 基础 本 章 的 内 容 比 本 书 其 他 章 更 理论 . 如 
果 不 感 兴趣 于 这 些 理论 细节 , 建议 读 7.1~7.3 节 , 然后 跳 到 下 一 章 ; 如 果 需 要 的 话 ， 
再 回头 看 . 如 果 你 需要 这 方面 更 详细 的 内 容 , 推荐 Johnstone(2003). 


7.1 ” 正 态 均值 模型 


令 Z" = (Zu, Zn), 这 里 ， 
Ze=O tong, i=1, n, (7.1) 
而 且 a,…,en 为 独立 N(0,1) 随机 变量 , 
6” = (01,.…,0n) € R” 
是 一 个 未 知 参数 向 量 , 而 cn 假定 是 已 知 的 . 通常 on = o/ Vi, 但 除非 特别 注 明 , 将 
不 做 此 假定 . 有 时 , 把 Z” 和 9" 记 为 Z 和 0. 该 模型 看 起 来 可 能 像 是 参数 的 , 但 是 


参数 的 数目 随 着 数据 点 数目 增加 而 以 同样 速率 增长 ， 这 个 模型 具有 一 个 非 参数 问 
题 的 所 有 复杂 性 与 微妙 性 . 还 将 考虑 该 模型 的 一 个 无 穷 维 形式 : 

五 =b+one， i=1,2 (7.2) 
这 里 , 未 知 参数 现在 是 9 = (01, 00,-+-). 

本 章 将 始终 把 c2 看 成 已 知 的 . 在 实践 中 , 将 需要 利用 第 5 章 的 方法 估计 这 个 
方差 . 在 这 种 情况 , 后 面 的 精确 结果 可 能 不 再 成 立 , 但 是 , 在 适当 的 光滑 条 件 下 , 这 
些 结果 的 渐 近 形式 将 会 成 立 . 

7.3 例 “为 了 提供 该 模型 的 某 些 直观 , 假定 有 数据 Xj = 0 + oby, 这 里 ， 
1<ij<m 而 65 是 独立 N(0,1) 随机 变量 . 这 恰 为 一 个 单 因子 方差 分 析 模 型 , 见 


图 7.1. 令 Zi =n-!》 Xy 那么 ,具有 on = 0/ yn 假定 的 模型 (7.1) 成 立 . 如 在 图 


j=1 
7.1 中 有 无 穷 多 列 (但 还 是 n fT), 那么 就 得 到 无 穷 形式 (7.2). m 
已 给 估计 6" = (A, Dn), 将 用 平方 误差 损失 


L(6",0") = YG —0)? =|" — 0”|?; 
i=l 
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a | @ |---| a | On 
Xu | Xa | … | Xa Xni 
Xij | Xa; Xij Xnj 
Xin | Xan | … | Xin | … | Xan 
[a [af [a fo] 2 


, AT 正 态 均 值 模型 
Xij =O; + N(0,07) 及 Zi =n Yo Xij = 0i + onci, 这 里 on = 0/ Vn. 由 nn 个 列 均值 Zis, Zn 


=1 
米 估计 参数 Li On 导致 了 具有 on = o/V 假定 的 模型 (7.1). 


及 风险 函数 
R(O",0") = Eo(L(O",0")) = > Eo(G: — 04)? 
对 0" 的 估计 的 一 个 明显 选择 为 g" = Zn. 这 个 估计 有 令 人 印象 深刻 的 各 种 “ 头 
衔 ": 它 是 最 大 似 然 估计 , 它 是 最 小 方差 无 偏 估计 , 而 且 它 是 在 平坦 先 验 分 布 时 的 贝 
时 斯 估计 . 然而 , 它 是 一 个 很 差 的 估计 . 它 的 风险 为 
R(Z",6") = SEZ — 04)? -De =no2 


i=l 
下 面 将 看 到 , 有 许多 具有 本 质 上 更 小 风险 的 估计 . 
在 解释 如 何在 MLE 上 作 改 进 时 , 首先 看 正 态 均值 问题 如 何 a 
度 估计 问题 相关 联 . 为 此 , 需要 关于 函数 空间 的 某 些 理论 . 


7.2 函数 空间 


b 

令 Lo(a,b) 表示 下 面 函 数 的 集合 ， f : [a,b] R, 满足 [ Pla)de < oo. 除 

非 另 外 说 明 , 假定 a = 0 及 5 = 1. 两 个 在 Lo(a,d) 中 的 函数 / 和 9 之 间 的 内 
b b 

积 (inner producb 定 义 为 / f(z)g(z)dz, 而 了 的 范 数 (norm) 为 ||f|| = f f?(a)da. 
考虑 一 个 函数 序列 gu,982，,…， 如 果 对 于 所 有 的 j, loll = 1( 标 准 化 ), 而 且 对 于 
1A, | e)s = OER, 该 序列 则 称 为 标准 正 交 的 (orthonormal). 在 
一 个 序列 中 , 如 果 仅 有 的 与 每 个 $ 都 正 交 的 函数 为 零 函数 , 那么 该 序列 称 为 完全 
的 (complete)， 一 个 完全 的 , 标准 正 交 的 函数 集合 形成 一 个 基 (basis), 这 意味 着 , 如 
果 f € Lala, b), 那么 f 能 够 在 这 个 基 上 展开 . 
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7.4 定理 ”如 果 fe Lo(a,b), WAL 
f(z) = $ bigle), (7.5) 
j=1 
这 里 ， 
b 
6; =f s(e)6s(e)az. (76) 
再 者 ， M 
[ Poue, (77) 
k a 
它 被 称 为 Parseval 恒等式 (Parseval's identity). 


L2(0,1) 的 标准 正 交 基 的 一 个 例子 为 余弦 基 (cosine basis) 
和 (z) =1, $;(x) = V2cos(2njz), j= 1,2,.…. 
另 一 个 例子 为 定义 在 (-1,1) 上 的 Legendre #: 
1 2 1 3 
Po(z)=1, Py(@)=2, P(x) = 5(827-1),  Pa(z) = 5 (52° — 3x), +++. 


这 些 多 项 式 被 下 式 定义 : 


L g 


Pa(z) = ma? aps 


Legendre 多 项 式 是 正 交 的 , 但 不 是 标准 正 交 的 , 这 是 因为 


1 z 2 
P2(z)dz = 一 . 
人 A 


然而 ,能 够 定义 改进 的 Legendre 多 项 式 Qn,(z) = /(2n+1)/2P,(z), 它 形成 了 
Z2(-11) 的 一 个 标准 正 交 基 . 

下 面 引 入 Sobolev 空间 , 它 是 一 个 光滑 函数 的 集合 . 令 Di 表示 f 的 第 ;个 
BPH. 


n x 

O (7.5) 中 的 等 号 意味 着 , 当 N 一 oo 时 ， Í [f(z) — fula) dz — 0, 这里, fy = 》 0ta) 
a a 

© 弱 导数 定义 在 附录 中 . ; 


7.2 函数 空间 lig: 


7.8 =X m 阶 Sobolev 空间 (Sobolev space of order m) 定义 为 
W(m) ={f € L2(0,1): D™f € L2(0,1)}. 


m 阶 及 半径 为 c BY Sobolev 空间 (Sobolev space of order m and radius c) 定义 


A 
W(m,c) = {f= f E€ W(m),||D™ FIP < 7}. 


周期 Sobolev 类 (periodic Sobolev class) 定 义 为 


W(m,c) = {f € W(m,c): DI (0) = Dif(1), 7 =0,---,m—1}. 


一 个 椭 球 (ellipsoid) 为 有 下 面 形式 的 一 个 集合 : 
O= fo Sag eel, (7.9) 
j=1 


这 里 , aj 为 一 个 数列 , 使 得 当 j 一 ce BY, aj 一 00. 

7.10 定义 ”如 果 日 为 一 个 椭 球 ,而 且 如 果 当 了 一 00 时, a? ~ (zj)2m, HK O 
为 一 个 Sobolev 椭 球 (Sobolev ellipsoid) 或 者 一 个 Sobolev 体 (Sobolev body), 用 
O(m,c) 表示 . 

现在 把 Sobolev 空间 和 Sobolev 椭 球 联系 起 来 . 

7.11 定理 ” 令 {9,j =0,1,---} 为 Fourier 基 (Fourier basis): 


f(z) =1, da; = Sq oon 202) poi+1 = Ja), j=1,2,---, 
那么 ， z 
W(m,c) = fr f= DOA Do <e}, (7.12) 
j=1 j=1 
这 里 ， 当 了 为 偶数 时 , aj = (aj), 而 当 j 为 奇数 时 ,aj = (x(j -1))™. 
这 样 , — Sobolev 空间 相应 于 一 个 a; ~ (zj)2 的 Sobolev MER. 虽然 细节 非 
常 复杂 , 但 还 是 有 可 能 把 W(m,c) 类 与 一 个 椭 球 联系 起 来 . 参见 Nussbaum (1985). 
在 Sobolev 空间 中 , 当 j AM, 光滑 函数 有 小 的 系数 9;, 否则 ， YB EAN 将 
会 爆 开 . 这 样 , 为 了 光滑 一 个 函数 , 把 0; 收缩 到 零 . 因此 ， 
使 了 光滑 相应 于 对 于 大 的 j 把 9; 收缩 到 零 . 


Sobolev 空间 的 一 个 推广 是 Besov 空间 . 它 包 括 了 Sobolev 空间 作为 一 个 特例 ， 
但 是 它 还 包括 了 较 不 光滑 的 函数 . 把 关于 Besov 空间 的 讨论 延 后 到 第 9 章 . 
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7.3 ”联系 到 回归 和 密度 估计 
考虑 非 参数 回归 模型 


Yı = f(i/n) toe, i=1,---,n, (7.13) 


这 里 , e; ~ N(0,1), o 为 已 知 的 , WA f € L2(0,1). & $1, ¢2,--- 为 一 个 标准 正 交 
基 , 并 记 f(z) = 0;9;(z), 这 里 , 0) = [Totea 首先 , 用 有 穷 序列 f(z) ~ 


j=l 


324642) 来 近似 上 现在 ,对 了 1 定义 


j=1 
ca 
z= = Yids(i/n). (7.14) 
$1 


因为 随机 变量 2; 是 正 态 变量 的 一 个 线性 组 合 , 因此 Z AESA. Zy 的 均值 为 


EZ) =È YE )4s(i/n) = Y Fle/n)os(é/n) 
i=1 i=1 


~ [ tas (z)dz = 0;. 
方差 为 
1< Bre PI». 
V2)= DVO/ = —— Y 7 hlin) 
i=l ý i=l 
x= /tar = = =o. 
一 个 类 似 的 计算 表明 Cov(2;, Ze) = 0. 结论 为 : Z 为 近似 独立 的 , 而 且 
Z;~N(8j.07); on =—- (7.15) 


已 经 把 估计 f 的 问题 转换 成 估计 n 个 正 态 随机 变量 均值 的 问题 , 正如 在 具有 02 = 
o?/n 的 (7.1) 那样 . 另外 , 关于 f 的 平方 误差 损失 相应 于 关于 0 的 平方 误差 损失 . 
理由 如 下 : 由 Parseval 恒等式 , 如 果 f(s) = G45 (2), 那么 ， 


j=l 


si? = f Ro- ar =, -0 = oP, w 


jal 


7.4 Stein 无 偏 风 险 估计 (SURE) 121. 


RH Jell = De. 
J 
实际 上 , 其 他 诸如 密度 估计 等 非 参数 问题 也 能 够 和 正 态 均值 问题 联系 起 来 . 关 
于 密度 估计 的 问题 , 密度 的 平方 根 成 为 白 噪声 的 问题 . 在 这 个 意义 上 , 许多 正 态 均 


值 问 题 作为 一 个 统一 性 框架 服务 于 许多 非 参数 模型 . 关于 细节 , 请 参见 Nussbaum 
(1996a), Claeskens and Hjort (2004) 及 附录 . 


7.4 Stein 无 偏 风 险 估 计 (SURE) 


令 6 为 9 的 一 个 估计 . 能 作出 关于 6 的 风险 的 估计 将 是 十 分 有 用 的 . 在 前 面 的 
章 中 , 利用 交叉 验证 来 估计 风险 . 在 目前 的 情况 , 有 源 于 Stein (1981) 的 一 个 更 加 雅 
致 的 方法 来 估计 风险 , 即 所 谓 的 Stein 无 偏 风险 估计 (Stein's unbiased risk estimator, 
SURE). 

7.17 定理 (Stein) 4 Z ~ Na(0, V), 0 =Z) 为 9 的 一 个 估计 ,并 令 g(21,…， 
Zn) =O - Z. 注意 ,g 把 R" 投影 到 R. 定义 


R(z) =tr(V) + 2tr(VD) + Dg2(2), (7.18) 


这 里 , tr 表示 一 个 矩阵 的 迹 , 9; = 6 - Zi, HH D WH Gj) 个 元 素 为 g(2 zn) 
的 第 i 个 元 素 关 于 z AMER. 如 果 9 为 弱 可 微 的 0, 那么， 
Eo(R(Z)) = R(O,O). 
如 果 对 模型 (7.1) 应 用 定理 7.17, 得 到 下 面 结果 . 


正 态 均值 模型 的 SURE 公式 
令 9 为 模型 (7.1) 中 9 的 弱 可 微 估 计 . 8 的 风险 的 一 个 无 偏 估计 为 


n n 
R(z) = nog +202 X Di+》 9?, (7.19) 
i=1 i=1 


这 里 , 9g( 2 ,Zr) =O" — 2" 及 Di = Og(ar,-++, zn)/Ozi- 

定理 7.17 的 证 明 KE V = c27 的 情况 下 证 明 . 如 果 X ~ N(u,07), 那么 
E(g(X)(X — p)) = o?Eg'(X) (这 称 为 Stein 引 理 , 而 且 它 能 够 用 分 部 积分 来 证 明 . 
见 练习 4). 因此 , c2EoDi = Eogi(Z; — 6) 和 


Eo(R(Z)) =no? + 20? X EoD: + > Eo(6; — Z:)? 


i=l i=l 


© 弱 可 微 在 附录 定义 
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=n0 +2 D Eo(9i(2i 一 bi)) 十 SEG — 4)? 
i=1 i=l 
=D Eo(2: - 65)? +2) Eo (@ - ZXZ: - 6)) 
i=l isl 
+ Seo, - 4)? 


i=1 


= EG — Zit Zi- 0i)? = Y Eo — 05)? = RG, 6). n 
i=l 


=1 
7.20 Bl $ V = 071. ZE 6 = Z. 那么 g(z) = (0,---,0) 及 R(Z) = no?. 
在 这 种 情况 , R 等 于 真实 风险 . 现在 考虑 线性 组 合 6 = DZ = (bZ1,---,bZn). 这 样 ， 
g(Z) =bZ-Z = (b-1)Z & D; = b— 1. Bs, R(Z) = (2b-1)no? + (1-8)? 》 2?. 
下 面 考虑 软 阔 估 计量 (soft threshold estimator). 它 定义 为 


Zita, Zi< dA, 
= 0, =e Bre h: (7.21) 
Z%-r, Zi>à, 


这 里 , A> 0 为 一 个 常数 . 能 够 更 紧凑 地 记 这 个 估计 量 为 
6; = sign(Zi)(|Zi| — A)+- 
在 练习 5 中 , 将 表明 , SURE 公式 给 出 


R(Z) = 5 [o? — 20°I(|Z:] < A) + min(Z?, d7)] . (7.22) 


最 后 , 考虑 硬 阅 估 计量 (hard threshold estimator). 它 定义 为 


py % |Zi| > A, (7.23) 
0, |Z)<A, 


这 里 , 和 > 0 是 一 个 常数 . 利用 SURE 是 很 有 吸引 力 的 , 但 由 于 这 个 估计 不 是 弱 可 
微 的 , 因此 是 不 合适 的 . m 
7.24 例 (模型 选择 ) ”对 于 每 个 S C {1,…,n}, 定义 


6s = ZIG € S). (7.25) 


7.5 ”最 小 最 大 风险 和 Pinsker 定理 .123 - 


能 够 把 S 想象 成 一 个 子 模型 , CHA: 对 于 ie 5, Zi ~ N(0i,02), 而 对 于 i s, 
Zi ~ N(0,02). 这 样 , gs 为 假定 了 模型 S 的 8 的 估计 . 65 的 真实 风险 为 

R(Os,0) = 02|5|+ 》 0, 

iese 

这 里 , |S| 表示 在 5 中 的 点 数 . 用 93 的 无 偏 估计 Z 一 o2 RERE, 得 到 风险 估计 

Rs =02|S|+ 5 (Z? - 02). (7:26) 

i€S® 
容易 验证 , 这 相应 于 SURE AR. 现在, 令 S 为 某 集合 类 , 这 里 每 个 Se SH 
{1,…,n} 的 一 个 子 集 . HEF Rs 最 小 的 S e S 则 是 模型 选择 (model selection) 
的 一 个 例子 . 特例 
S = {9,{1},{1,2},.…, {1,2,.…,n}} 

MARE F ARIE (nested subset selection). 把 S WH {1,---,n} 的 所 有 子 集 相 应 
于 所 有 可 能 的 子 集 . 对 于 任何 固定 的 模型 5, 预期 Rs 将 会 和 R(6s,6) 接近 . 然而 ， 
这 并 不 保证 Ry 将 一 致 地 在 S 和 R(6s, 0) 接近. 见 练习 10. C] 


7.5 “最 小 最 大 风险 和 Pinsker 定理 
如 果 ©, 为 R” 的 一 个 子 集 , 定义 在 6,, 上 的 最 小 最 大 风险 (minimax risk) 为 
Rn = R(On) = inf sup R(O,0), (7.27) 
0 esen 


这 里 下 确 界 是 关于 所 有 估计 的 . 将 要 涉及 的 两 个 问题 是 : (i) ROn) 的 最 小 最 大 风 
险 的 值 是 多 少 ? (ii) 能 够 找到 一 个 统计 量 达 到 这 个 风险 吗 ? 
下 面 的 定理 @ 给 出 了 对 于 L 球 
®n(c) = T : ye < e} ; 
的 最 小 最 大 风险 的 精确 极限 形式 . 
7.28 定理 (Pnsker 定理 ) ”假定 模型 (7.1), 02 = o?/n. 对 于 任何 c> 0, 


全 oc? 
lim inf inf R(6, 8) = 一 一 一 . 
EEE oe Oe) ot 


(7.29) 


(7.29) 的 右边 给 出 了 关于 ( 渐 近 ) 最 小 最 大 风险 的 精确 表示 . 该 表示 严格 小 于 
最 大 似 然 估 计 的 风险 o?. 后 面 , 将 引入 渐 近 地 达到 这 个 风险 的 James-Stein 估计 . 该 


© 这 是 有 穷 维 形式 的 Pinsker 定理 . 定理 7.32 为 通常 的 形式 . 
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定理 的 证 明 在 附录 ; 它 有 些 技术 细节 , 因而 可 以 略 去 不 看 , 不 会 失去 连贯 性 . 下 面 是 
证 明 背 后 的 基本 思想 . 

首先 注意 , 有 坐标 0; = c22j/(c2 + 2) 的 估计 的 风险 有 上 界 o2c2/(o? +22). 
此 ， 


oe 
<- 
Ra < o? +2 


如 果 能 够 在 ©,.(c) 上 找到 一 个 先 验 分 布 x; 其 后 验 均值 6 也 有 风险 0c? /(o? +), 
那么 ， ee 对 于 任意 估计 6, 有 


=f R(0, 0)dr(0) < f R(0, 0)dr(0) < Sup RO, 6) = (7.31) 


(7.30) 


aa F = 
由 (7.30) 和 (7.31) 将 会 得 到 Rn = 0c? /(o? +2). 证 明 本 质 上 是 这 个 定理 的 近似 形 
式 . 只 要 找到 风险 任意 接近 c2c2z/(c2 +c?) 的 在 所 有 R 上 的 一 个 先 验 分 布 , 那么 
就 能 表明 , 该 先 验 分 布 渐 近 地 集中 在 Onc). 
现在 , 看 最 小 最 大 定理 如 何 用 于 光滑 函数 . 
7.32 定理 (关于 Sobolev 椭 球 的 Pinsker ZB) 4 


Zi = 05+ (7.33) 


Fae j=1,2,- 
这 里 , e1,e2，,… ~ N(0,1). RÆ 0 € O(m,c), 这 里 , O(m,c) 为 一 个 Sobolev HR (E 
忆 定 义 7.10), 令 Rn 表示 在 O(m,c) 上 的 最 小 最 大 风险 . 那么 ， 


lim, mi2m/(zm+D) R, = (EJ alamid p, (7.34) 
这 里 ， 
m 2m/(2m+1) 
B= G= :) (2m +1)/@m+0) (7.35) 


是 Pinsker 常数 . 因此 , 最 小 最 大 率 为 nmm) 即 
0 < lim n?/@m+)R, < 00. 


下 面 是 该 定理 的 更 一 般 的 形式 . 
7.36 定理 (关于 椭 球 的 Pnisker 定理 ) 4 


O= fo Sasca), 
= 


集合 © 称 为 一 个 椭 球 (ellipsoid). 假定 当 了 一 co 时 , aj 一 00. & 
Rn = inf sup R(Ô, 6) 
0 9se 


7.6 ”线性 收缩 和 James-Stein 估计 .125 . 


表示 最 小 最 大 风险 , 并 且 令 


RE = inf sup R(6.9) 
Decese 
表示 最 小 最 大 线性 风险 , 这 里 ，C 是 形状 为 8 = (wi121,tw222,…) 的 线性 估计 的 集 
合 . 那么 ， 
(1) 当 n 一 00, 线性 估计 是 渐 近 最 小 最 大 的 : Rn ~ RE. 
(2) 最 小 最 大 线性 风险 满足 
fh SN (y 
Ba Dh an 
RE, / 满足 方程 
Lat 一 ai)+ = 2. 


(3) 线性 最 小 最 大 估计 为 Ô = wiZi, 这 里 ,wi = [1 一 (ai/p)] 4. 
(4) 对 于 有 着 独立 分 量 的 先 验 分 布 , 如 其 满足 0; ~ N (0,72), 7? = (0?/n)(u/ai-— 
1)+, 那么 线性 最 小 最 大 估计 是 贝 叶 斯 估计 人 . 


7.6 ”线性 收缩 和 James-Stein 估计 


现在 转向 模型 (7.1) 来 看 如 何 能 够 利用 线性 估计 在 MLE 上 作出 改进 ， 一 个 
线性 估计 (linear estimator) 是 形状 为 6 = bZ = (bZ1,…,bZ,) 的 一 个 估计 , 这 里 
0 <b <1. 线性 估计 是 收缩 估计 (shrinkage estimator), 因 其 把 2 收缩 到 原点 ， 用 
L={bZ: be [0,1]} 表示 线性 收缩 估计 量 的 集合 . 

很 容易 计算 一 个 线性 估计 的 风险 . 从 基本 的 偏 倚 - 方差 问题 , 有 


R(bZ, 8) = (1 — 6)?|[||2 + nb?o2, (7.37) 


RH, [01/2 = ya 当 
i=l 
-llel 
“no? + [111% 
时 风险 达到 最 小 . 称 5,2 为 理想 线性 估计 (ideal linear estimator). 理想 线性 估计 的 
风险 为 
nazilli 


RZ, 0) = a oE (7.38) 


O 中叶 斯 估计 使 得 贝 叶 斯 风险 Í R(8, 6)dr(98) 对 于 给 定 的 先 验 分 布 r 最 小 . 
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这 样 已 经 证 明了 : 
7.39 定理 = no? ||| (2 
eTO O = nok + TOT” 
由 于 b, 依赖 于 未 知 的 参数 0, 不 能 利用 估计 bZ. 因此 , 称 R(b.2,0) 为 线性 
神 论 风 险 (linear oracular risk), 这 是 因为 风险 只 能 被 知道 |l8||z 的 “ 神 论 (oracle)” 
得 到 . 现在 要 表明 , James-Stein 估计 几乎 达到 了 该 理想 神 论 的 风险 . 
6 的 James-Stein 估计 定义 为 


(7.40) 


ass (n — 2)o2 
z n 


0 =|1 
Le 
isl 


将 要 在 定理 7.48 中 看 到 , 这 个 估计 是 渐 近 最 优 的 . 

7.42 定理 James-Stein 估计 的 风险 满足 下 面 界限 : 
(n—2)ozllolls ,2 + alol 
Tao +o "+ nok + [10/8 


Z. (7.41) 


RO, 6) < 202 + (7.43) 


这 里 , |10] = 562. 


i=1 


证 明 18 0° = Z +9(Z), 这 里 ,g(z) = —(n 一 2)o2z/ > 22. 因此 ， 


i 2 
i= BE = -n — 2)0? S7 al 
(5 
及 
(n — 2)?02 
yp - 
i=l ya 
把 它 代 入 SURE 公式 (7.19) 得 到 
A (n= 2/04 
R(Z) = no? 一 A 


因此 , 风险 为 


RO’, 6) =E(A(Z)) = no? — (n —2)?o E ba > (7.44) 
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现在 Z? = 03 (0:/0n+6:)?, 并 因此 5z ~ oW, 这里, W 为 非 中 心 x? 分 布 ,有 个 


i=1 
自由 度 , 非 中 心 参数 为 5 = 》 (07/02). 利用 一 个 关于 非 中 心 x? 随机 变量 的 结果 , 就 
能 够 记 W ~ x2 ;zk, 这 里 Ky Poisson(5/2). 回忆 (对 于 n> 2)E(1/x2) = 1/(n—2). 


4 eee) 


(H Jensen 不 等 式 ) 


7 


"l (n—2)+on' D0 


i=l 


1 


(n= 2)o2 + ye 
i=1 
ARA (7.44), 得 到 第 一 个 不 等 式 . 第 二 个 不 等 式 则 由 简单 的 代数 得 到 . G] 
7.45 说 明 ”修正 的 James-Stein 估计 定义 为 


6= [ = = A (7.46) 
+ 


这 里 , (o)+ = max{a,0}. A n -2 到 n 的 改变 导致 一 个 较 简单 的 表示 式 , 而 对 于 大 
的 n 这 有 可 忽略 的 效果 . 取 收 缩 因子 的 正 的 部 分 不 能 增加 这 个 风险 . 在 实践 中 , 修 
正 的 James-Stein 估计 常常 被 提 到 . 
下 面 的 结果 表明 , James-Stein 估计 几乎 达到 线性 神 论 的 风险 . 
7.47 定理 (James-Stein 神 论 不 等 式 ) 4 L={bZ: be RR} 表示 线性 估计 类 . 
对 所 有 OER", 


inf R(B,0) < R”, 0) < 202 + inf RO, 0). 
BEL beL 


证 明 JA (7.38) 和 定理 7.42 得 出 . 图 
有 关于 James-Stein 估计 的 另 一 个 观点 . 令 6 = bZ. Stein 无 偏 风险 估计 为 
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R(Z) = no? + 2no2(b—1) + (0-1)? > 22. 它 在 


i=l 


fo 
2,2% 
i=l 
被 最 小 化 , 产生 估计 
d=-z=|1- "|z 
ya 


这 本 质 上 是 James-Stein 估计 . 

现在 能 表明 , James-Stein 估计 达到 了 Pinsker 界 (7.29), 并 且 因此 为 渐 近 最 小 
最 大 . 

7.48 定理 4 02 =07/n. James-Stein 估计 为 渐 近 最 小 最 大 , H 


oc 


一 JS 
lim sup R(@ ,0)= a 
-— eco te) 人 ) o? + © 


证 明 ”由 定理 7.42 和 7.28 得 出 . 

7.49 说 明 ”James-Stein 估计 是 适应 的 (adaptive), 其 意义 为 , 在 没有 参数 c 网 
知识 下 , CE On(c) 达到 最 小 最 大 界 . 

总 结 : 在 所 有 线性 估计 上 ，James-Stein 估计 本 质 上 是 最 优 的 而且, 在 所 有 估 
计 上 , 不 仅仅 是 线性 估计 , 它 是 渐 近 最 优 的 . 这 还 表明 , 最 小 最 大 风险 和 线性 最 小 最 
大 风险 是 渐 近 等 价 的 . 正如 将 要 看 到 的 , 这 实际 上 (有 时 ) 是 一 个 更 加 普遍 的 现象 . 


7.7 在 Sobolev 空间 的 适应 估计 


定理 7.32 给 出 了 在 O(m, c) 上 的 最 小 最 大 的 估计 . 然而 , 该 估计 并 不 令 人 满意 ， 
为 它 要 求知 道 A m. 

Efromovich and Pinsker (1984) 证 明了 一 个 杰出 的 结果 , 即 存在 一 个 在 O(m, c) 
上 最 小 最 大 的 估计 ,而 且 不 要 求知 道 m 和 c. 该 估计 被 称 为 是 适应 地 渐 近 最 小 最 
大 (adaptively asymptotically minimax). 其 思想 是 把 观测 划分 为 区 组 Bı = {21,… 
Zm þ Bz = {Zm a Engh.) 然后 在 区 组 内 应 用 一 个 适当 的 估计 方法 . 

有 一 个 特别 的 区 组 估计 方法 , 源 于 Cai et al. (2000). 对 于 任意 实数 a, $ [a] 表 
示 a 的 整数 部 分 . 令 = 1+1/logn, 并 令 Ko 为 一 个 整数 , 满足 对 于 大 > Ko 十 1， 
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A [bX] > 3 Æ [bt] — [bk] > 3. $ Bo = {Zi : 1 < i< [b%]}, MAM k > Ko+1, 
S Bk = {Zi : [BO] < i < 的 } 令 6 为 在 每 个 区 组 Be 内 应 用 James-Stein 估计 
所 得 到 的 估计 . 对 于 i > [bX], 估计 取 0, 这 里 , Ki = [log,(n)] — 1. 

7.50 定理 (Cai, et al., 2000) “ 令 人 为 上 面 的 估计 . 40(m,c)= Q3 Dated } 


这 里 , a, = 1 及 azi = azi+l = 1 + (2in)?™. & Rn(m,c) 表示 在 O(m, ð 上 上 的 最 小 最 
大 风险 . 那么 , 对 于 所 有 m >0 及 c> 0， 


sup RÔ, 6) 
8€O(m,c) 


noo R,(m,c) al 
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这 一 节 讨论 为 g" 构造 置信 集 . 为 方便 计 , 现在 把 g" M ZWA o M Z. 
可 忆 如 果 


inf, Po(0 € Ba) > 1-a, (7.51) 


则 称 Bu CR” 为 一 个 1-a 置信 集 . 把 概率 分 布 Po 写 明 下 标 0, 以 强调 该 分 布依 
HAF 6. 这 里 有 某 些 构造 置信 集 的 方法 . 

Bik x? BTR. 关于 9 的 最 简单 的 置信 集 是 基于 ||2 - 0\|?/02 有 一 个 X2 
分 布 的 事实 . 令 


Bn = {0 ER": ||Z -0l < oxa} (7.52) 
这 里 , x2,。 为 有 自由 度 ”的 x? 随机 变量 的 上 a 分 位 数 . 马上 得 到 


Po(g € Bn) =1—a, 对 所 有 OER” RE. 


因此 , (7.51) 满足 . 这 个 球 的 期 望 半 径 为 no2. 下 面 将 看 到 , 对 此 能 够 作出 改进 . 
用 预 检验 来 改进 X2 球 . 在 讨论 更 复杂 的 方法 之 前 , 有 一 个 简单 的 基于 Lepski 
(1999) 的 改进 x? 球 的 思想 . 下 面 的 方法 是 这 个 方法 的 推广 . 
注意 , x? R B。 有 一 个 固定 的 半径 sn = on/n. 当 应 用 于 函数 估计 时 , on = 
O(1/Vn), 所 以 sn = O(1). 因此 , 即使 n 一 00, 此 球 的 半径 也 不 收敛 到 0. 下 面 的 构 
造 使 得 该 半径 小 些 . 思想 是 检验 0 = 6. 如 果 接受 零 假设 ， 利用 一 个 中 心 在 6o 的 
小 些 的 球 . 下 面 是 细节 . 


+130 + RIE ” 正 态 均值 和 最 小 最 大 理论 


首先 , 检验 假设 9 = (0,…,0). 利用 JO 22? 作为 检验 统计 量 . 特别 地 , 当 
h= 5 
时 , 拒绝 零 假设 , 这 里 , cn 定义 为 


È a 
P a> S) -和 
(x3 on 2 


根据 构造 , 该 检验 有 第 一 类 误差 率 a/2. WR Z 表示 一 个 N(0,1) 随机 变量 , 那 


2 2 
a Cond xz-n Z-n amn 
—=P 2> $) =P Ti > 一 zP | Z> 一 一 一 
2 (x oz Vin ~ Vn van |’ 


意味 着 


Ê sa2(n 十 V3nza/a). 
现在 计算 在 lb|| > An 时 这 个 检验 的 势 , 这 里 ， 
n= V2V2za/2 nion. 


记 Zi = bi + onci, 这 里 ,ei ~ N(0,1), 那么 ， 


P6(Tn > È) =Po (= 2> a) =Po (ze 十 onei)2 > a) 


=Po (er +2m Doi +02 Doe > a) . 
现在 , ||0\|? +209 》 Oii +03 De? ASHE |0]? + no3 RITZ 402|6\|? +2n04. 用 
2 表示 一 个 N(0,1) 随机 变量 . 因此 有 
Po(T, > 2) Pp (lai? + no? + V/4e2| 5 十 20042 > a) 
Po (Iloll? + no? + VIO + 2nokZ > o3(n + VInza/2)) 


||? 

V 22/2 一 | 2 

=P Z> von 
2+ 


Jean- lle 
ei 2 
>P|z>— NVA 21-5, 


2 
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这 是 因为 ||6|| > An 意味 着 
(181? 


Vian ~ Siok 
2 

概括 起 来 对 于 所 有 的 ||6|| > An 该 检验 有 a/2 的 第 一 类 错误 率 及 不 多 于 a/2 
的 第 二 类 错误 率 . 

如 下 定义 置信 过 程 . 如 果 该 检验 接受 , 令 4 = 0, 如 果 该 检验 拒绝 , MWS 9 = 1. 
定义 

Bn, 中 
m-f {0: lloll < An}, $=0. 

这 样 , R。 是 一 个 随机 半径 置信 球 . 当 $= 1 时 , 半径 和 x? 球 相同 , 但 当 $= 0 
时 , 半径 为 小 得 多 的 An 现在 验证 该 球 有 正确 的 覆盖 率 . 

当 9 = (0,…,0) 时 , 该 球 的 不 覆盖 率 为 


Po(0 ¢ R)=Po(8 ¢ R,d = 0) + Po(O ¢ R,ġ = 1) 


2 —2a/2- 


Il 
m. 


<0+Po(6=1) =S. 
4 0 4 (0,---,0) 而 且 [JOI] < An 时 , 该 球 的 不 覆盖 率 为 
Po(0 ¢ R)=Po(0 ¢ R,d =0) + Po(O ¢ Rd = 1) 
<0+Po(0 ¢ B) = > 
4 0 £(0,---,0) 而 且 ||6|| > An 时 , 该 球 的 不 覆盖 率 为 
Po(0 ¢ R)=Po(O ¢ Rg =0) + Po(O ¢ R,ġ = 1) 
<Po(d = 0) + Po(0¢B)<S+S =a. 
概括 起 来 , 基于 检验 是 否 9 接近 (0,…,0), 并 且 在 检验 接受 时 利用 一 个 中 心 在 
(0,…,0) 的 较 小 的 球 , 得 到 一 个 有 适当 覆盖 率 的 球 , 有 时 它 有 比 x? 球 小 的 半径 . 其 
含义 如 下 : 
在 参数 空间 某 点 ， 一 个 随机 半径 置信 球 能 够 有 比 一 个 固定 置信 球 小 的 期 记 


半径 . 
下 面部 分 推广 这 个 思想 . 

FEI Baraud 置信 集 . 这 里 讨论 源 于 Baraud (2004) 的 方法 ; 它 是 以 上 面 讨 
论 的 Lepski (1999) 为 基础 的 . 先 从 R” 的 线性 子 空间 类 S 开始 . > Is 表示 到 5 
上 的 投影 . 这 样 , 对 任何 向 量 Z CR", Is2G 是 在 S 中 最 靠近 Z 的 向 量 . 
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对 于 每 个 子 空间 S, 构造 一 个 半径 为 ps, 并 以 一 个 在 S 中 的 估计 为 中 心 的 球 
Bs, BH 


Bs = {0 : ||@ —IsZ|| < ps}. (7.53) 
对 每 个 5 & S, 利用 ||Z - Is2|| 作为 检验 统计 量 来 检验 是 否 9 和 3 接近 . 然后 在 
所 有 的 不 拒绝 的 子 空间 5 中 取 最 小 的 置信 球 Bs. 使 这 个 方法 有 用 的 关键 在 于 : 选 
择 的 半径 ps 必需 满足 


max Pe(S 不 被 拒绝 ， 而 且 0 ¢ Bs) < as, (7.54) 
KB, Sas <a. 得 到 的 置信 球 有 至 少 1 - a 的 覆盖 率 , At, 


ses 


max Po(6 ¢ B) < ae Po(S 不 被 拒绝 , TIE 0 ¢ Bs) 


= ,as <a. 
s 


下 面 将 看 到 , 在 6 < R" 上 的 nt 维 最 大 化 能 够 化 为 一 维 最 大 化 . 这 是 因为 概率 仅仅 
通过 量 z = ||9 - Is6|| 依赖 于 0. 

即使 当 9 不 靠近 S 的 一 个 子 空间 时 , EMA oe 1- a. 而 如 果 它 靠近 
S 的 一 个 子 空间 时 , 该 置信 球 将 小 于 x? BR. 

例如 , 假定 在 一 个 基 上 展开 一 个 函数 f(x) = 》 0;9;(z), 如 在 7.3 节 所 做 的 ， 


那么 , 9; 相应 于 f 在 这 个 基 中 的 系数 . 如 果 这 个 函数 是 光滑 的 ， 则 期 望 : 对 于 大 的 
i 0 将 会 小 . 因此 , 9 可 能 会 被 一 个 形 为 (91,… ,9m,0,…,0) 的 向 量 近似 . 这 意味 
着 能 够 对 于 m = 0,…,n, 检验 9 是 否 接近 形 为 (91,… ,9m,0,…,0) 向 量 的 子 空间 
Sin. 在 这 种 情况 , 将 把 子 空间 类 取 为 S= {50,…, Sn}. 

在 进入 细节 之 前 ， 需要 某 些 记号 . 如 果 对 于 j =1,---,k, Xj ~ N(uj,1) 为 ID 


的 , 那么 了 = DX 有 一 个 非 中 心 分 布 ;其 非 中 心 参数 d 二 Yu, 自由 度 为 
2 ; 

并 且 我 们 记 代 ~ 34. 4 Gar 表示 这 个 随机 变量 的 CDF, JG qarla) = G7} -a) 

表示 上 a 分 位 数 .根据 习惯 ,对 于 a > 1 定义 wk(a) = -00 


令 5 为 Rn 的 线性 子 空 间 的 一 个 有 穷 集合 . BE R €S. $ d(S) 为 SeS 的 
维 数 , 并 令 e(5) =n —d(S). 固定 ae (0,1) Ry € (0,1), KB, y<1-a > 


= 2 
a={s: LEEA < os)), (7.55) 


c(S) = go,e(s) (7). (7.56) 
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把 ||Z - Is2||? 考虑 成 检验 9 e S 的 检验 统计 量 . 那么 4 为 不 拒绝 子 空间 
的 集合 . 注意 , A 总 是 包含 子 空间 5 = R". 这 是 因为 , 当 5 = R" 时 , IIs2Z = 2 及 
|Z -1s2ZIl? = 0. 

令 {as : SES} H Dias <a 的 数目 集合 . 如 下 定义 ps: 


Ses 
inf {Gn (gon(7)) < as}, a(S) =0, 
B= x sup {z + qo,d(s) (ste)} ， O<d(S)<n, (7.57) 
P = 97,90,n(as), d(S) =n. 
定义 
E 5 = argminps, 
SEA 
6= Is82 K p= ps. 最 后 定义 
Bn = {0 ER": ||0 — Ol? < 7}. (7.58) 
7.59 定理 (Baraud, 2004) ”定义 在 (7.58) 的 集合 B, 是 一 个 有 效 的 置信 和 集 : 
anf, Po(@ € Ba) > 1- a. (7.60) 


证 明 4 Bs={0: ||0—TsZ||? < 0}. W4, 
”Po(0# Bs)<Po(0 # Bs, IFE SEA) 
<> Po(\|@ -TsZl| > ps, 8 € A) 
s 


|Z -HsZIl < e(S)on). 


=》 Po(|l@ — IIsZ|| > ps, 
s 


因为 》 as <a, 只 需 表 明 对 于 所 有 S E€ S, a(S) < as, 这 里 ， 
s 


a(S) = Po (|9 — TisZ|| > ps, ||Z — Ts Z|? < o2e($)). (7.61) 


4 d(S) = 0 时 , Hs2 = (0,…,0). MR |l9l| < ps, MA a(0) = 0, AF as. 如 
果 el| > ps, BA, 因为 Guan(u) 在 z 对 所 有 的 u 递减 , 并 根据 p8 的 定义 , 有 


(9) = 可 (È z< cima) 


i=l 
三 GIlelz/oain(gon(7)) < G2 03 n(Go,n(7)) 


as. 
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现在 考虑 0 < d(5) <n 的 情况 . 令 


本 


oi 


gales 4g, p- P-a 
= 


这 里 ,z= ||9—Is0||?/03. 那么 , AA B 为 独立 的 , MA A ~ +x asy B~ x2 (5): 
因此 ， 


a(S) = Pi (a> $ >, B< MA 


=P 人 十 Xi > a 1 X28) < «3)) (7.62) 
=| ~ Go,a8) (4 = :)| Gz,e¢s) (c(S)). (7.63) 
由 p3 的 定义 ， 
经 一 z > goud(s) (ata A 1) ; 
并 因此 ， 


1- Goas' (8-2) <1- Gous goals) (ae 
a Nak k 5) (PAO \ G5) (5) 


ü as 
7 Ges) (c(S)) 


从 (7.63) 和 (7.64) 得 到 a(S) < as. 
对 于 d(S) =n 的 情况 , HsZ = 2 及 18 一 Is2Z? = 02 Se? $ ox, 并 因此 ， 
由 don 的 定义 ， 


(7.64) 


a(S) = Po(onXn > gon(as)on) = as. m 


当 on 是 未 知 时 , 利用 在 第 5 章 讨论 的 方法 之 一 来 估计 方差 , 而 且 一 般 来 说 , A 
盖 率 仅仅 是 渐 近 正确 . 为 了 看 到 on 的 不 确定 性 的 影响 , 考虑 确实 已 知 cn 在 区 间 
I= [VIE tata, Tn] 之 中 的 理想 情况 (在 实践 中 , 将 为 o 构造 一 个 置信 区 间 , 并 且 适 
当地 调整 置信 球 的 水 平 a). 在 这 种 情况 , 半径 ps 由 下 式 定义 : 


inf{ sup G2 /02,n(Go,n(7)Ta/02) < as}, d(S) =0, 

sup {zo2 + 0240,s)(hs(z,on))}, 0< ad(S) <n, (7.65) 
z>0,0nET 
gon(as)r2， d(S) =n, 


> 
四 
ll 
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这 里 ， 
as 
rae al Gs,e(s) (Gz,e(s) (gose(s) (7)72)) nee) 
“而 且 A 现在 定义 为 
A={SES: ||Z-IsZ|l? < q,(s)(7)72)}- (7.67) 


Beran-Diimbgen-Stein 枢 轴 方 法 ， 现 在 , 讨论 一 个 不 同 的 方法 ， 它 源 于 Stein 
(1981), 并 且 进 一 步 被 Li (1989), Beran and Diimbgen (1998), Genovese and Wasser- 
man (2005) 所 发 展 . 该 方法 比 Baraud-Lepski 方法 简单 , 但 它 用 渐 近 近似 ,在 下 一 
章 将 更 详细 地 考虑 这 个 方法 , 这 里 给 出 其 基本 思想 . 

BERETE S = {50, 51,…, Sn}, 这 里 ， 


Sj = {0 = (9070 0): (81,+++,6;) ERI}. 
S Om = (Zi, Zm 0,0) 表示 在 模型 Sm 下 的 估计 . 损失 函数 为 
Lm = \|@m — Oll?. 


定义 枢 轴 (pivot) 
Vin = Vii(Lm — Rm); (7.68) 


这 里 , Rp =moi+ 》 (Z}-02) X SURE. $ M AE Rm 在 m 上 最 小 . Beran and 
j=m+1 
Diimbgen (1998) 表明 Va/F ~ N(0,1), 这 里 ， 


72, = V(Vm) = 2no2 (ni 2D a) ， 


j=m+1 


及 
7? = 2no2 fe +2 入 (a al 
j=ñħ+1 
令 f 
r= Rnt Te, 
并 定义 


Bn = {oeR": llem — ||? <r}. 
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Po(8 € Bn) = Po(||Om — Ol? < 12) = Po(Lm < 73) 


= Ps (im < Ên + 2) = (E < za) 
一 1 一 a. 


这 个 方法 的 一 个 实际 问题 是 02 能 够 是 负 的 ， 这 是 由 于 在 R 和 中 存在 的 项 
So (2-02). 为 了 对 付 这 个 问题 有 oo > (22 —02),0 来 蔡 换 这 一 项 . 


j=m+1 =m+1 


这 能 导致 过 分 覆盖 , 但 至 少 能 得 到 有 定义 的 半径 . 
7.69 Gl BERETE S= {So, S51,…, Sn}, KH, So = {0,…,0} 及 


Sj = {0 = (01,-++,0;,0,-++,0): (@1,+++,0;) ER}. 
取 a = 0.05,n = 100, 0, = 1/ yn, 对 所 有 的 S, as = a/(n +1). 这 样 , 如 所 要 求 的 那 
样 有 Cas = a. 图 7.2 显示 了 对 于 y = 0.05, 0.15,0.50,0.90, ps 对 5 的 维 数 的 关 
系 . 虚线 为 x? 球 的 半径 . 能 够 表明 
Mog. (a=) : (7.70) 


图 7.2 Bi 7.69 的 常数 ps 
横 轴 是 子 模型 的 维 数 ， 四 条 曲线 显示 对 于 y= 0.05,0.15,0.50, 0.90 的 ps. 最 高 的 曲线 相应 于 y= 0.05, 
而 当 7 增加 时 , 曲线 降低 . 虚线 为 x? 球 的 半径 . 


CRA, 对 低 维 模型 的 收缩 导致 了 较 小 的 置信 集 . 这 里 有 一 个 有 意思 的 平衡 . 设置 
大 的 y 来 使 得 po 变 小 导致 了 潜在 的 小 置信 球 . 然而 , 使 得 7 大 , 则 会 增加 集合 A, 
这 又 减少 了 选择 小 的 p 的 机 会 . 在 模型 8 = (10,10, 10,10, 10,0,---,0) 下 做 了 模拟 . 
其 汇总 请 参看 表 7.1. 在 这 个 例子 中 , 枢 轴 方 法 看 来 是 运作 最 好 的 . m 
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表 7.1 BF 1000 次 模拟 的 例 7.69 的 模拟 结果 


方法 amis 半径 
x? 0.950 1.115 
7 =0.90 1.000 0.973 

7 = 0.50 1.000 0.904 

Barga y=0.15 1.000 0.779 
7=0.05 0.996 0.605 

枢 轴 0.998 0.582 


7.9 置信 集 的 最 优 性 


当 保持 着 正确 的 覆盖 率 时 , 能 够 使 置信 集 小 到 什么 程度 呢 ? 这 一 节 , 将 会 看 到 ， 
如 果 Bn 是 一 个 半径 为 sn 的 置信 球 , 那么 对 每 个 9, Eo(sn) > Cionn, 及 对 某 个 8， 
Ee(sn) > Caonnl/2. 这 里 Cl 和 C2 为 正常 数 . x? 球 对 所 有 的 有 半径 cnna/2. 这 
意味 着 x? 球 能 够 被 继续 改进 . 实际 上 , Baradud 置信 球 在 参数 空间 的 某 点 能 够 达 
到 较 快 的 速率 onnM4. 将 在 这 一 节 提 供 某 些 细节 . 但 是 , 首先 把 这 个 和 点 估计 做 比 
较 . 

由 定理 7.32, Æ m 阶 Sobolev 空 间 上 的 一 个 点 估计 的 最 优 收敛 率 为 m-2m/(2m+1)， 
按照 定理 7.50, 能 够 在 没有 关于 m 的 先 验 知识 时 来 构造 达到 这 个 速率 的 估计 . 这 就 
引起 了 下 面 的 问题 : 能 够 构造 适应 地 达到 这 个 最 优 速率 的 置信 球 吗 ? 简短 的 回答 
是 不 能 . Robin and van der Vaart (2005), Juditsky and Lambert-Lacroix (2003), Cai 
and Low (2005) 表明 , 对 于 置信 集 的 某 种 程度 的 改进 是 可 能 的 , 但 改进 量 是 非常 有 
限 的 . 从 上 面 的 评论 看 出 , 不 用 任何 光滑 假定 , 能 够 得 到 的 最 快 的 收敛 率 是 on1/4， 
意味 着 当 on = of/Vn 时 为 O(n-14) 阶 的 . 

以 下 面 源 于 Li (1989) 的 定理 开始 转 到 细节 . 

7.71 定理 (Li, 1989) 4B, = {0" ER": ||6" 一 9"|| < sn}, 这 里 , 0" 为 0” 
的 任意 估计 , 而 且 sn = sn(2") 为 球 的 半径 . 假定 


lim inf inf Per(g"e Bn) > 1 — a- (7.72) 
那么 , 对 于 任意 的 序列 9" 和 任意 的 cn 一 0, 
lim sup Pon(8n < cnonmnl4) < a. (7.73) 


Baraud (2004) 与 Cai and Low (2005) 提供 了 有 穷 样本 结果 . 例如 , 有 下 面 结果 ， 
其 证 明 在 附录 . 

7.74 定理 (Cai and Low, 2004) ”假定 模型 (7.1). 国定 0 < a < 1/2. 令 B = 
{9: Iĝ- 8l] < sn} 满足 
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inf, Po(0 € Ba) >1—a. 


那么 , 对 每 一 个 0<e< (1/2)—a, 
dnf, Eo(sn) > on(1 一 2a 一 2e)nl4[log(1 + e2)]274. (7.75) 


特别 地 , 如 果 on = o/V 那么， 
dnf Eoln) > (7.76) 


这 里 , C = o(1 — 2a — 2) [log(1 + €?)]*/4. 
正如 下 面 定理 所 表明 的 , 上 面 定理 的 下 界 不 能 在 任何 地 方 得 到 . 
7.77 定理 (Cai and Low, 2004) ”假定 模型 (7.1). HRO<a<1/2.4B, = 
{9: || - | < sn} 满足 
gf, Po(0 € Bn) > 1—a, 


那么 , 对 每 一 个 0<e< (1/2) — a, 


六 
sup Ee(sn) > €OnZa+2eVn oe (7.78) 
OER"™ -a-e 


特别 地 , 如 果 on = o/Vn, 那么 ， 


sup E9(sn) > C, (7.79) 
oer” 


RE, C = ezat2eVe/(1 一 a 一 e). 

尽管 有 这 些 悲观 的 结果 , 还 是 有 些 改 进 的 潜力 , 因为 在 定理 7.74 的 下 确 界 小 于 
定理 7.77 的 上 确 界 . 例如 , x? 球 有 半径 O(n Vn), 而 上 面 定理 的 下 界 为 Onn), 
说 明 能 够 做 得 比 x? 球 好 . 这 就 是 产生 Baraud 和 枢 轴 置信 集 的 动机 . Baraud 置信 
集 的 确 有 某 种 形式 的 改进 : 如 果 9 e sS, BA, 以 高 概率 有 P< ps. 这 很 容易 从 球 所 
定义 的 方式 得 到 . 把 这 作为 一 个 引 理 . 

7.80 引 理 ”如 定理 7.59 那样 定义 5,Q,7 和 (ps: SCS). 对 于 每 个 SeS， 


inf Polo < ps) 21-7. (7.81) 


Baraud 还 给 出 了 下 面 的 结果 , 表明 他 的 构造 是 本 质 上 最 优 的 . 头 一 个 结果 给 
出 了 关于 任意 适应 性 置信 球 的 下 界 . 其 后 面 的 结果 表明 他 的 置信 集 的 半径 ps 本 质 
上 达到 了 这 个 下 界 . 
7.82 定理 (Baraud, 2004) ”假定 6 = 6(Z) Rr = r(Z), 使 得 B = {0 : 
||6-O|? <r} 为 一 个 1 一 a 置信 球 . 还 假定 2a+7T < 1 一 e-136 及 d(S) < n/2. 如 
果 
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inl Po(r < rs) > 1-7 (7.83) 
那么 , HH C = Cla, 7) > 0, 
r% > Co? max {d(S), Vn} . (7.84) 


RS 包含 单独 的 一 个 点 则 得 到 定理 7.74 同样 的 结果 , WS = R 则 产生 和 定 
理 7.77 同样 的 结果 . 

7.85 定理 (Baraud, 2004) ”如 定理 7.59 那样 定义 S,a,Y 和 {ps : FES}. BK 
定 除 了 对 S=R" NER SES, 有 d(S) < n/2. 那么 , 存在 一 个 普遍 常数 C > 0, 
使 得 


0} < Co? max {a(s), Vnlog(l/as), log(1/as)} : (7.86) 
当 仅 知道 m 在 区 间 了 = [VI nTn, Tn] 中 时 , Baraud 表明 , 下 界 (7.84) 成 为 
3 > C rž max {nun/2,d(S)(1—m), Vn = a(S) -m)} (87) 


它 表 明 , 关于 o 的 信息 是 关键 . 实际 上 , 能 够 有 的 最 好 的 现实 希望 就 是 知道 o? 等 于 
阶 数 mm = O(n-1?), 在 这 种 情况 , 下 界 的 阶 数 为 max{ yn, d(5)}. 


7.10 ”随机 半径 置信 带 


已 经 看 到 随机 半径 置信 球 能 够 在 下 面 意义 上 被 改进 , 即 在 参数 空间 中 的 某 些 
点 , 它们 小 于 固定 的 半径 置信 球 . 对 于 置信 带 是 否 也 是 这 样 呢 ? 正如 Low (1997) 的 
结果 表明 , 回答 是 不 能 . 实际 上 , Low 考虑 的 是 在 一 个 单独 点 估计 密度 f. 但 本 质 上 ， 
同样 结果 也 适用 于 回归 和 置信 带 . 他 表明 , f(z) 的 任何 随机 半径 置信 区 间 的 期 望 宽 
度 应 该 至 少 和 一 个 固定 宽度 的 置信 区 间 一 样 大. 这 样 , 构造 置信 球 和 构造 置信 带 之 
间 有 质 的 区 别 . 

类 似 的 评论 应 用 于 其 他 范 数 . Lp 范 数 定义 为 


1/p 
m-f (gee) alias 


max; jbi|， p=oo. 


置信 带 能 够 被 考虑 为 Lo 置信 球 . 能 够 表明 , 在 Lp WEL, 2 < p< oo 情况 下 , 置信 
球 落 在 Lo 和 Lo 两 个 极端 之 间 , 意味 着 有 某 种 改进 , 但 不 像 在 L 范 数 时 那么 多 . 
类 似 的 评论 应 用 于 假设 检验 , 参见 Ingster and Suslina (2003). 
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7.11 惩罚 、 神 论 和 稀疏 
再 考虑 许多 正 态 均值 问题 


EN atis Ee 
如 果 选 择 信 来 使 平方 和 》 (2; — 0,)? 最 小 , 得 到 MLE Ô = Z = (Zi, ++, Za). 如 果 


换 种 作法 ， 使 惩罚 平方 和 最 小 ， 则 得 到 不 同 的 估计 . 
7.88 EH 4 J: R" 一 [0,00), A>0, 并且 定义 惩罚 平方 和 (penalized sum 
of squares) 为 


M =Ñ (Zi — 0:)? + AJ(6). 


令 6 使 M 最 小 .如果 入 = 0, 那么 ,6 = Z. wR J(0) = sre, 那么 下 = Z:/A+d), 


i=l 
为 一 个 线性 收缩 估计 . 如 果 J(6) = Sim 那么 6 HK BIT (7.21). 如 果 IO) = 
HO: 0: £0}, AO HARM Hit (7.23). 
这 样 可 以 看 到 , 线性 收缩 估计 , KA, 硬 阅 估 计 都 是 一 个 一 般 方法 的 特殊 
情况 . Ly 惩罚 》 o 是 特别 有 意思 的 . 按照 定理 7.88, 使 得 


i=1 
Da - 6)? + aye l:l (7.89) 
i=l imt 


BETH EAB Oy = Oa, n) 这 里 
Ôx, = sign(Zi)(|Zi| — d)+- 


准则 (7.89) 在 lasso (Tibshirani, 1996) 的 名 字 下 出 现在 线性 回归 的 变量 选择 中 , 及 
在 寻 基 (basis persuit)(Chen et al., 1998) 的 名 字 下 出 现在 信号 处 理 中 . 在 第 9 章 将 
看 到 , 软 阔 在 小 波 方法 中 也 扮演 着 一 个 重要 的 角色 . 

为 了 得 到 关于 软 阐 的 更 多 的 内 涵 , 考虑 一 个 源 于 Donoho and Johnstone (1994) 
的 结果 . 考虑 估计 0;, 并 假定 利用 或 者 Z 或 者 0 作为 一 个 估计 . 如 果 认 为 向 量 9 是 
很 稀疏 的 , 即 它 有 很 多 零 , 那么 这 样 的 估计 可 能 会 是 合适 的 ，2; 的 风险 是 o2, 而 0 
的 风险 是 好 . 想象 一 个 知道 什么 时 候 Z: 有 较 好 的 风险 及 什么 时 候 0 有 较 好 的 风险 
HAM (oracle). 那么 神 论 估 计 为 min{o2, 62}. 整个 向 量 8 的 估计 的 风险 为 


Roracte = 》 min{o2, 6). 
isti 
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Donoho and Johnstone (1994) 表明 , 软 阐 给 出 了 接近 神 论 的 一 个 估计 . 
7.90 定理 (Donoho and Johnstone, 1994) 4 A = onV2logn. ABA, 对 每 个 
OER", 
E 6/8, — Oll? < (2logn + 1)(0? + Roracte)- 
WH, 在 下 面 的 意义 上 , 没有 估计 能 够 更 接近 神 论 : 当 ni 一 0c, 


inf sup Bl — ll? = ll 


~ 2) i 7.91 
@ eeR" 02 + Roracle one (7.91) 


现在 考虑 一 个 稀疏 向 量 9, 它 除了 大 个 大 值 分 量 之 外 , 其 余 都 是 0, XE, «Kn. 
那么 Rorace = ko2. 在 下 一 章 将 看 到 , 在 函数 估计 问题 中 , o2 = O(1/n), 并 因此 
Roracie = O(k/n), CE (k 小 的 ) 稀疏 空间 中 算是 小 的 . 


7.12 文献 说 明 


把 非 参数 模型 化 简 为 正 态 均值 模型 (或 者 在 附录 中 的 白 噪 声 模型 ) 的 想法 可 
至 少 追 述 到 Ibargimov and Has’minski (1977), Efromovich and Pinsker (1982), 以 及 
其 他 的 一 些 文献 . 对 于 这 方面 的 最 近 结果 的 例子 , 可 参见 Brown and Low (1996), 
Nussbaum (1996a). 处 理 正 态 决策 理论 及 其 与 非 参 数 问题 的 关系 的 一 个 彻底 方法 包 
A Johnstone (2003) F. 还 有 在 这 个 框架 中 的 关于 假设 检验 的 大 量 文献 . 许多 结 
果 是 源 于 Ingster, 并 且 概括 于 Ingster and Suslina (2003). 


7.13 W X 


GRAD. VACA RR ARA (white noise model) 有 关 ， 这 里 给 出 一 个 
简单 的 描述 ， 回 忆 , 标准 Brown 运动 W(t),0 < t < 1, 为 一 个 随机 函数 ,满足 
W(0) =0,W(s+t)—W(s) ~ N(0,t), MAMFO<u<v<s<t, W(v)—W(u) 独 
立 于 W(t) -W(s). 能 够 把 W 看 成 随机 游 走 的 一 个 连续 形式 . 4 Z = f(i/n) 十 cei， 
WA ei ~ N(0,1). F 0 <t<1, 定义 


1 四 [nt] 


Z(t) = + 


noo ltt, + S f(i/n) 这 一 项 收敛 于 f(s)ds. 而 aSa 则 收敛 于 标准 


Brown 运动 . (对 于 任意 固定 的 t, 这 刚好 是 中 心 极限 定理 的 一 FER.) 于 是 , 渐 近 
地 , 能 够 写 
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Z(t) = f "aiie gwo. 
这 称 为 标准 白 噪 声 模型 (standard white noise model), 常常 以 不 同 的 形式 写 为 


o 
aZ(t) = flat + TAW), (7.92) 


这 里 , dw(t) 为 白 噪 声 过 程 9. 
令 ppa 为 Za(0,1) 上 的 一 个 标准 正 交 基 , 并 且 记 f(z) = 》 bibi(z), 这 
i=l 


里 ,0; = j f(a)di(a)de. 用 di 乘 以 (7.92) 并 且 积分 , 得 到 Zi = 0:4 (o/ Vader, 这 里 ， 


Zi = f eazy Reai= [rowo ~ N(0,1). 回 到 正 态 均 值 问题 . 一 个 更 复杂 
的 推理 能 够 用 来 把 密度 估计 和 白 噪声 模型 联系 起 来 , 正如 在 Nussbaum (1996a) 所 
描述 的 . 

BTR. 令 f 为 在 每 个 有 界 区 间 可 积 . 如 果 存 在 一 个 在 每 个 有 界 区 间 可 积 的 函 
Bf 使 得 只 要 z < y, 有 


f res= sa) ro, 


那么 f 是 弱 可 微 的 (weakly differentiable). 称 f' 为 f 的 弱 导 数 . 一 个 等 价 的 条 件 
是 , 对 于 每 个 有 紧 支撑 的 及 无 穷 可 微 的 办 


J ws = /rds 
参看 Hirdle et al. (1998) 第 72 页 . 

Pinsker 定理 (定理 7.28) 的 证 明 (Nussbaum, 1996b) ”需要 利用 现在 要 回顾 
的 贝 叶 斯 估计 . 令 mm 为 一 个 6" 的 先 验 分 布 . 积分 的 风险 (integrated risk) 定义 为 
BÔ, Tn) = | R(O", 0")drn(0") = Ex,EoL(6,0). 贝 叶 斯 估计 (Bayes estimator)B, 
使 得 下 面 贝 叶 斯 风险 最 小 : 


B(m) = inf BO", rn). (7.93) 


贝 叶 斯 估计 的 一 个 显 公式 为 


6.,.(y) = argmin E(L(a, 6)|2"). 


在 平方 误差 损失 L(a,0) = |a — 9||2 的 情况 , 贝 叶 斯 估计 为 6., (y) = E(6|Z"). 
© 直观 上 , 把 dW (t) 看 成 在 非常 小 格子 上 的 一 些 正 态 变 量 的 一 个 向 量 . 
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S On = On(c), 
Ra = inf sup RÔ, 0) 
@ 668, 


表示 最 小 最 大 风险 . 将 找到 这 个 风险 的 一 个 上 界 和 一 个 下 界 . 
ER. FG, = Zlo? + 2). 这 个 估计 的 偏 作为 


Wi 2 
Es(0) -0 = 一 
JŽ» EE ET 
w= (afa) a= (afa) T 
因此 风险 为 


B40 — olP= Sia +(e) 人 
-(a%3) Ès san (aa) 
<e (sha) + (aes) 


= PË 
Ta 


因此 , 对 于 所 有 的 n, 


FR. 固定 0 < 6 < 1. 令 mm 为 一 个 正 态 先 验 分 布 , 为 之 , 91,…,0n 为 UD 
的 N(0, e252/n) 变量 . 令 Bln) 表示 贝 叶 斯 风险 ， 回忆: Bern) 使 得 积分 的 风险 
BÔ, mn) 在 所 有 估计 上 最 小 . WO AANE O = c2622;/(c26? + 0?) 的 后 验 均值 可 
得 到 该 最 小 值 , 风险 为 


2 c252 2 
a 2 2 o? 
wn- (EE 十 o2 (=; | | 
= fe h Pay PA 


贝 叶 斯 风险 为 
0252c2 


B(xn) = | R(0, 0)drn(0) = Pree 
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这 样 , 对 任意 估计 Ô, 
B(rn) < BO, rn) 
= 人 R(O, O)drn + f R(0, 0)dr, 
On CH 
< sup R(0,6) + J. R(6,8)drn 
eeen es 
< sup R(0,6) + sup f. R(0, O)drn. 
ecen 6 Jos 
对 所 有 在 On 中 取 值 的 估计 取 下 确 界 , 得 到 
Blt) < Ra + sup f R(O, Oar. 
a Jos 
因此 ， 
局 >B(m) -sup 人 R(O, Bjarn 
8 Jos 


0262c2 a 
= s f R(0, 0)dnn. 


现在 ， 利用 lla + b||? < 2(llal|? + ||b||?) 的 事实 及 Cauchy-Schwartz 不 等 式 , 有 


sw RO, amn <2 f i Eollĝl| drn 


和 2Vmm(68) | Ern (zs) ) Han 85). 


3 
2 52, 
> oO, — 2/183), En (==) -2m (OF). (7.94) 
了 


现在 局 限于 (7.94) 的 最 后 两 项 . 
将 要 利用 下 面 的 大 离 差 不 等 式 : WE Z, Za ~ N(0,1) 及 0 <t <1, BA, 


e(l 
n 
Fd 


这 样 ， 


5 — 1) 


> ‘ ener ls, 


713 附 录 145- 


& 25 = ateh 并 令 t= (1 一 02)/52. BA, 
Tn (OS) = r(Sa>e) -eh co 
了 


<r (jis Sz -1) >) < 29-0778, 
”下 面 , 注意 
= (5 中 SE (04) + EEEn (6?) Ex, (62) 
i=1 i=l jži 
ASE] Ze Aga 
=£ = i) + OS = O(1). 
因此 , 由 (7.94), 
Po? a 3 sid 本 一 2V5er /0400D — 267", 
因此 ， 282 2 
lint > Ea 
让 671, 得 到 结论 . 
定理 7.74 的 证 明 令 
a= A llogl + Es, 
并 定义 


R={0= (1,-+-,8n) + [| =a, i= 1, n} 
注意 0 包含 2" 个 元 素 . 令 fo 表示 均值 为 9 RONAN 021 的 多 元 正 态 密度 , 这 
里 ,了 为 单位 矩阵 . 定义 混合 


1 
= on D, Solv)- 
bn 名 Oly, 
令 fo 表示 均值 为 (0,…,0) 及 协 方差 为 on 了 的 多 元 正 态 密度 . WA, 


J \fole) -eajlaz= COLA Vie 


[fo(z) — 9(x)}? 
if fols) = 
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现在 ， 
中 一/ [ies or- G 
2 
(roo a) 


Ae 


Ove 


fo 
-(x) 

-( A epf- + ie} Ba (er {2E 
( ) 5 ox {gag +I) jf eee} 


-(%) DoS}. 


当 从 4 随机 抽取 两 个 向 量 9 和 wv 时 , 后 者 等 于 exp((0,v)/o2) 的 均值 . 而 它 等 于 


PYE 
Eexp F zi 
n 


IXE, Bi, By 为 独立 的 , THE P(E, = 1) = P(E; = _1) = 1/2. 另外 ， 


im | 


2 
iy 


nf) 
-[>«(3)] ， 
这 里 , cosh(y) = (e” + e 7)/2. XF, . 
Fs [om 人 人 ev 


这 里 已 经 利用 了 cosh(y) < À 的 事实 . FR, 
J Vole) aaa < Ve =T =e, 
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因此 , 如 果 用 @ 表示 密度 为 a 的 概率 测度 , 有 , 对 任意 事件 A, 
QA) = /sadz= 人 hodz+ 人 aa 一 Ad 
> Po(A)~ | lala) ~ fola)ide > Po(A) -< (7.98) 


定义 两 个 事件 , 4 = {(0,…,0)e Ba} R B = {2 N Bn # 2}. B—-KR 0 € R HM 
有 范 数 
Iloll = Vna? = cnn /slog(1 + €?)]"/4 = cn. 
因此 , AN BC {sn > cn}. 因为 对 于 所 有 的 6, Pe(9 € Bn) > 1 一 a, 因而 , 对 所 有 的 
8 € 2, Po(B) >1—a. 人 (7.95), 
Po(sn > Cn) >Po (A N B) > Q(AN B) -€ 
=Q(A) + Q(B) -Q (AU B) -€ 
>Q(4)+Q(B)-1-e 
>Q(A) + (1-a)-1-€ 
>Po(A) + (1 — a) — 1 — 2 
>(1—a)+ (1-a) -1-2 
=1— 2a — 2e. 


这 样 , Eo(sn) > (1 - 2a - 2e)cn. 容易 看 到 , 同样 的 推理 能 够 用 于 任意 的 ge R", 而 
因此 , 对 每 个 9 € R", Ee(sn) > (1 — 2a — 2e)cn- e 
定理 7.77 WER $ a= onza + 2e, XE 0 < e < (1/2)(1/2—a), 并 且 定义 


2= {0 = (h, 0n): [Bil =a, i=1, n}. 


定义 损失 函数 L = LÔ, 0) = E 16-0) >a). 令 为 在 9 上 的 均匀 先 验 分 布 . 


i=1 


在 0 上 的 后 验 概率 分 布 函数 为 p(gly) = ITzeuw， 这 里 ， 


i=l 


eav /a2 
1 + e2avi/o2 


1(0; = —a). 


Ply) = T(0i =a) + 


1+ e2avi/o3 


后 验 风险 为 
E(L(, 0)ly) = > P(I®; — 64| > aly). 


=1 
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WOR yi > 0, CRO; = a 最 小 化 , 而 如 果 yi < 0, ERO; = a 最 小 化 . 该 估计 的 风 
险 为 


> [P(Yi < 0/6; = a)I(0; = a) + P(Y; > 0/0; = —a)I (0; = -oj] 


i=1 


=nG(—a/on) = n(a + 2€). 
因为 风险 是 常数 , 它 是 最 小 最 大 风险 . 因此 ， 


n n 
inf su Po(\8; — 6;| > a) > inf su Po(|0; — 6;| > a 
a oe (lOi — 0i| > a) z => elb — 0i| > a) 


i=l 


=n(a + 2e). 
4 7 =/(l-a—6). BAM 8, 
mmPe(L < yn) + nPo(L > yn) > L, 
并 因此 ， 
sup(ynPo(L < yn) + nPo(L > yn)) > sup Eo(L) > n(a + 26). 
由 这 个 不 等 式 及 Po(L < yn) + Poll > yn) = 1 的 事实 , 得 到 
supPo(L > yn) > a 十 e. 
这 样 ， 
sup Po (|[ĝ — 0||? > yna?) > sup Po(L Dyn) zate. 
因此 ， 
supPe(s > yna?) > sup Po(s? > Iĝ — |? > yna?) 
=supPo(s > ||6 — 0|?) + sup Po (l| — ||? > yna?) — 1 
Sees Toi i 
这 样 ， sup Eo(sn) > ea yyh. [ 
7.14 练 习 
1. MF i=1,---,n, > 6 = 1/2? Rn = 1000. MF i=1,---.n, > Z~NG,1). + 


算 MLE 的 风险 . 计算 估计 6 = (bZ1,bZ2,-++,bZn) 的 风险 . 把 这 个 风险 作为 b 的 函数 点 作出 
图 来. RER be. 现在 进行 模拟 . 对 每 一 轮 模拟 , 找到 (修正 的 )James-Stein 估计 62, 这 里 
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TA 


对 每 次 模拟 都 将 得 到 一 个 5, 把 模拟 的 ? 的 值 和 5。 比较. 另外 , 把 MLE 和 James-Stein 估计 
的 风险 (后 者 由 模拟 得 到 ) 与 Pinsker 界 比 较 . 
2. 对 于 正 态 均值 问题 , 考虑 下 面 的 曲线 软 疮 估计 : 


=(Z: +A)’, Zi<-A, 
8 = 1 0, -ASZ <A, 
(Z-A, 五 > 入 


这 里 , 和 > 0 为 某 固定 常数 . 

(a) 找到 这 个 估计 的 风险 . 提示 : R= E(SURE). 

(b) 考虑 问题 1， 利 用 从 2(a) 的 估计 , 这 里 入 由 数据 利用 SURE 选 出 . 把 这 个 风险 和 
James-Stein 估计 的 风险 作 比 较 . 现在 , 对 于 


10% 990 %& 
@ = (10,---, 10,0,---,0) 
重复 这 个 比较 . 
3. $ J = Jn WE In + 00 Rn 00. & 
stat > zh 


这 里 ，Z; ~ N(0i,07/n). 表明 , 如 果 9 = (01, 02,---) 属于 某 Sobolev 体 , 其 阶 数 为 m > 1/2, 
那么 5? 是 o? 在 正 态 均值 模型 中 的 一 个 一 致 相合 估计 . 

4. 证 明 Stein 引 理 : 如 果 X ~ N(u,07), BA E(g(X)(X — u)) = 07 Eg'(X). 

5. 验证 方程 7.22. 

6. 表明 , 定义 在 (7.23) 中 的 硬 阔 估计 不 是 弱 可 微 的 . 

7. 对 软 阔 估 计 (7.21) 和 硬 阐 估计 (7.23) 计算 风险 函数 . 

8. X} i= 1,.…,100, 生成 Zi ~ N(0:, 1), 这 里 b = 1/i. 利用 下 列 方法 计算 一 个 95% 置 信 
ER: (i) x? 置信 球 ; (ii) Baraud 方法 ; (iii) 枢 轴 方 法 . 重复 1000 次 , 并 且 比较 球 的 半径 . 

9. $ lla — bll = sup |a; — b;|. 构造 形式 为 Bn = {0 ER”: ||0— Zn"| < en} 的 置信 
集 Bn, 使 对 于 取 on = /VE 时 的 模型 (7.1) 的 所 有 9 e R", 有 Po(9 € Bn) > 1- a 求 你 的 
置信 集 的 期 望 直 径 . 

10. 考虑 例 7.24. 定义 


b= mas Sup, IRs — R(@s,8)|. 


试图 用 下 面 三 个 方法 为 5 EF: (i) S 包含 单独 一 个 模型 5; (ii) 嵌 套 模型 选择 ; (ii) 所 有 子 集 选 
择 . 
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11. 考虑 例 7.24. 另 一 个 选择 模型 的 方法 是 使 用 惩罚 似 然 . 特别 地 , 某 些 已 知 惩罚 模型 选择 
方法 是 AIC (Akaike’s information criterion) (Akaike, 1973), Mallows 的 Cp (Mallows, 1973), 
BIC (Bayesian information criterion)(Schwarz, 1978). 在 正 态 均值 模型 , 使 SURE, AIC, Cp 
最 小 化 是 等 价 的 . 但 是 , BIC 导致 一 个 不 同 的 模型 选择 方法 . 具体 地 说 ， 


BICe = pe 一 B logn, 

这 里 ,Le 为 子 模型 B 在 其 最 大 似 然 估 计 处 的 对 数 似 然 值 . 求 BICs 的 一 个 显 表达 式 . 假定 用 使 
得 BICs 在 B 最 大 化 来 选择 B. 研究 这 个 模型 选择 方法 的 性 质 , 并 与 使 SURE 最 小 的 方法 来 选 
择 模型 做 比较 . 具体 地 , 比较 得 到 的 估计 的 风险 . 再 假定 有 一 个 “真实 ” 子 模型 ( 即 , 0; AO 当 且 
MA i e B), 比较 在 每 个 方法 下 选择 真实 子 模型 的 概率 . 一 般 地 说 , 精确 地 估计 9 和 找到 真实 子 
模型 并 不 一 样 . 见 Wasserman (2000). 

12. 在 例 7.69 中 , 利用 正 态 对 非 中 心 x? 的 近似 来 求 对 于 po 和 pw 的 大 样本 近似 . 然后 证 
明 方程 (7.70). 
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8.1 引 a 


在 这 一 章 , 利用 正 交 函 数 方法 来 作 非 参数 统计 推断 . 具体 地 说 , 利用 一 个 正 交 
基 来 把 回归 和 密度 估计 问题 转换 成 一 个 正太 均值 问题 , 然后 利用 第 7 章 的 定理 构 
造 估 计量 和 置信 集 . 在 回归 情况 , 得 到 的 估计 为 线性 光滑 器 , 因此 是 在 5.2 节 所 描 
述 的 估计 量 的 特例 . 在 下 一 章 , 基于 小 波 来 讨论 关于 正 交 函数 回归 的 另 一 种 方法 . 


8.2 ” 非 参数 回归 


在 这 里 考虑 的 正 交 函 数 回归 的 特殊 形式 是 由 Beran(2000), Beran and Diimbgen 
(1998) 发 展 的 . 他 们 称 该 方法 为 REACT, 意味 着 在 坐标 变换 之 后 的 风险 估计 和 适 
应 (risk estimation and adaptation after coordinate transformation). 类 似 的 思想 已 经 
被 Efromovich (1999) 发 展 过 . 事实 上 , 基本 思想 并 不 新 . 例如 可 参见 Centov (1962). 

假定 , 观测 


Y; = r(z;) + déi, (8.1) 


这 里 , e; ~ N(0,1) 为 UD. 目前 , 假定 一 个 规则 设计 (regular design), 意味 着 r; = 
ifn, 一 1 


令 办, 各，…… 是 为 [0,1] 的 一 个 标准 正 交 基 . 在 例子 中 , 将 常用 余弦 基 ; 


r(x) = 1, $3(z) = V2cos((j — Drz), j >2. (8.2) 
E r 展开 成 
r(z) = 2 454;(2), (8.3) 
j=1 
这 里 , 6; = f ġj(z)r(x)dz. apm 
0 
首先 , 用 下 式 近 似 r: 


mm(z) = >》 6;4;(2). 
| 


+ 152- 第 8 章 ”利用 正 交 函数 的 非 参 数 推断 


EE r 到 {81,… on} 所 张 空间 的 投影 0. 这 引入 了 一 个 积分 的 平方 偏 倚 , 其 大 小 
为 


B,(0) = f tOna iss > B. 


j=n+1 

BUR r 是 光滑 的 , 这 个 偏 倚 很 小 . 

8.4 引 理 ” 令 O(m,c) 为 一 个 Sobolev WRO. 那么 

: 1 

web = O(a): @s) 

特别 地 , 如果 m > 1/2, 那么 ene. oP n (0) = o(1/n). 

因此 , 这 个 偏 倚 是 可 忽略 的 , 并 且 本 章 的 其 余部 分 将 忽略 它 . 更 确切 地 , 将 着 重 
估计 rn, 而 不 是 r. 下 面 的 任务 是 估计 9 = (91,…,0n). & 


iD røe) j= (8.6) 
i=l 
正如 在 (7.15) 所 见 到 的 ， 
Zx N (o =) ’ (8.7) 


从 前 一 章 知道 , MLE Z = (21,… “> Zn) ) 有 大 的 风险 . 一 种 改进 MLE 的 可 能 是 利用 
在 (7.41) 定义 的 James-Stein 估计 ”可 以 把 James-Stein 估计 看 成 使 得 在 具有 
形式 (5b21,…,bZn) 的 所 有 估计 的 风险 最 小 的 估计 . REACT 推广 了 这 个 思想 , 它 使 
得 在 一 个 称 为 调节 器 的 较 大 估计 类 中 风险 最 小 . 

一 个 调节 器 (modulator) 是 一 个 向 量 b = (b1,…,bn), 满足 0<b<1,j= 
1,…,n. 一 个 调节 估计 (modulation estimator) 是 一 个 有 下 面 形式 的 估计 : 


6 = bZ = (b1 Z1,b2Zo,-+ , bn Zn). (8.8) 


一 个 常数 调节 器 (constant modulator) 是 一 个 形 为 (6,…,b) 的 调节 器 . 一 个 嵌 套 子 
集 选择 调节 器 (nested subset selection modulator) 是 一 个 形 为 


b =(1,---,1,0,---,0) 


的 调节 器 . 一 个 单调 调节 器 (monotone modulator) 是 一 个 形 为 


p(n) 
O 更 一 般 地 , 能 够 取 rn(z) = J 9;9;(z), 这 里 以 适当 的 速率 , p(n) 一 ov. 
加 见 定义 72. 


8.2” 非 参数 回归 . -153 


的 调节 器 . 常数 调节 器 的 集合 用 Mcons 表示 , 嵌 套 子 集 选择 调节 器 的 集合 用 Myss 
表示 , 而 单调 调节 器 的 集合 用 Atwox 表示 . 
已 给 一 个 调节 器 b = (br, +++, bn), 函数 估计 为 


Fale) = 》 Goile) = J bZ). (8.9) 
j=1 j=1 
观测 
falz) = DYili(z), (8.10) 
i=l 
这 里 ， 
&(z)= 2 5565 (2)03(21)- (8.11) 
j=1 


因此 , Pn 为 一 个 线性 光滑 器 , 如 在 5.2 节 所 描述 的 . 

调节 器 把 Z 收缩 到 0, 并 且 , 正如 将 会 在 最 后 一 章 看 到 的 ， 收 缩 倾向 于 使 函 
数 光 滑 . 于 是 , 对 收缩 程度 的 选择 相应 于 在 第 5 章 所 面 对 的 对 带宽 的 选择 . 将 利用 
Stein 无 偏 风 险 估计 (7.4 节 ) 而 不 是 交叉 验证 来 应 对 这 个 问题 . 


R(b) = Eg (X02 一 or) 
j=1 


表示 估计 6 = (bi21,…,bn2n) 的 风险 ，REACT 的 思想 就 是 估计 风险 RO), 并 
在 一 类 调节 器 M 上 选择 使 得 估计 的 风险 最 小 的 ? 在 Moons 上 的 最 小 化 产生 
James-Stein 估计 , 因此 , REACT 是 James-Stein 估计 的 一 个 推广 . 
为 了 继续 , 需要 估计 o. 任何 在 第 5 章 讨论 的 方法 都 可 以 用 . 另外 一 个 很 适合 
目前 框架 的 估计 是 2 
=- pr 2. (8.12) 


i 
n= Ia i=n—Jn+1 


REH n 一 co 时, In 一 oo R n- Ja > o, 那么 这 个 估计 是 相合 的 . 作为 一 个 默 
WME Jn = n/4 并 不 是 没有 道理 的 . 直观 是 这 样 的 : 如 果 r 是 光滑 的 , 那么 期 望 对 
于 大 的 j, 0; = 0, 并 因此 Z? = (6? + ocj/ Jn)? = (o6;/ Yn)? = 072 /n. 因此 ， 


ss 1 z 1 z 2 
E=- D ay È Tee) =02. 


i=n-Jn+1 i=n-Jn+1 


现在 能 够 估计 风险 函数 了 . 
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8.13 定理 ”一 个 调节 器 的 风险 为 


R(b) = Sea = bj}? + 2 you. (8.14) 
j=l 


= 
R(b) 的 (修正 的 )CSURE 估计 为 


Rp ee = - e | a z 2 
R(b) A (4 Z) a BPE Le (8.15) 
这 里 , 6? 是 o? 的 诸如 (8.12) 那样 的 一 个 相合 估计 . 

8.16 EX A M 为 调节 器 的 一 个 集合 . 6 的 调节 估计 (modulation estimator) 
WO = Zi, -+ -,bnZn), 这 里 ,b= 6r,- bn) E RO) £ M 上 最 小 . REACT 
函数 估计 (REACT function estimator) 为 


Fale) = D Goile) = D2;9;(7). 
j=1 j=1 


对 于 固定 的 b, 期 望 R(b) 近似 Rb). 但 是 对 于 REACT, 要 求 得 更 多 : 想 要 
Rb) 对 于 b e M 一 致 近似 R(b). 如 果 这 样 , 那么 ESA R(b) ~ jing, RO), 而 且 使 
Rb) 最 小 的 应 该 几乎 和 使 R(b) 最 小 的 已 一 样 好 . 这 就 是 下 面 结果 的 动机 . 

8.17 定理 (Beran and Diimbgen, 1998) 4 M 为 Mcons,Mnss È Mmon 
之 一 . 令 R(b) 表示 估计 (b121,…,bn2Zn) 的 真实 风险 . 令 b 使 RO) 在 M 上 最 小 ， 
TA Ê ik Rob) EM 上 最 小 . 那么 , 当 n 一 oo HH, 

|R(b) — R(b*)| 一 0. 
对 于 M = Moons 或 M = Muon, 估计 Ô = ( 抽 Z1,…,bn2n) 达到 Pinsker 界 
(7.29). 

为 了 实施 这 个 方法 , 需要 找到 8 来 使 Rb) 最 小 . Rb) 在 Moons 上 的 最 小 值 
是 James-Stein 估计 . 为 了 在 Muss 上 使 得 R(b) 最 小 , 对 于 每 个 形式 为 (1 1 
0,……,0) 的 调节 器 计算 Rb), 然后 找到 最 小 值 . 换言之 , 寻求 使 得 


RJ) = ae. + = (4 一 =), (8.18) 


O 称 之 为 收 正 的 风险 估计 是 因为 已 经 插入 了 o 的 估计 5, 而 且 用 (Z? 一 5/n)+ BRT (Z? 一 62/n)， 
这 通常 改进 了 风险 估计 . 
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? 

BUN 7, JEE Fala) = YO Zola). 最 好 在 图 上 画 出 作为 J 的 函数 的 被 估计 风 
j=) 

R. 为 了 在 Muon 上 使 得 RO) 最 小 , 注意 , Alo) 能 够 被 写成 


RO) = D0) + o (8.19) 
i=l i=l 
这 里 , gi = (Z? — G?/n)/Z?. 这 样 , 只 要 在 b > … > bn 的 约束 下 使 
Ye ~g) Z? 
气 
最 小 即 可 . 这 恰好 是 一 个 在 单调 性 约束 下 的 加 权 最 小 二 乘 问题 . 有 一 个 称 为 集中 邻 
近 违 犯 者 (pooled adjacent violators, PAV) 算法 的 著名 方法 来 实施 这 个 最 小 化 . 参 
J, Robertson et al.(1988). 
通常 , 单调 调节 器 导致 接近 NSS 调节 器 的 估计 , 而 后 者 容易 实施 . 因此 , 作为 
一 个 常规 方法 , NSS 方法 是 有 道理 的 . 现在 , 能 够 概括 REACT 方法 . 
REACT 的 概括 


(4) Ht J =1,-+-,n, & Z =n? Yo Yil). 


(2) 求 由 (8.18) 给 出 的 合 得 风险 信 计 RU) 最 小 的 人 
(3) 令 


7 
Fale) = D2;9;(2). 
j=1 


8.20 例 (Doppler 函数 ) ”回忆 例 5.63 的 Doppler 函数 
r(z) = Vz(l — x) sin (=a) 7 


z 


图 8.1 的 左上 小 图 显示 了 真实 函数 . 右上 小 图 表示 了 1000 个 数据 点 . 数据 是 从 模 
BY; = r(i/n) + oei 模拟 出 来 的 , 这 里 c = 0.1 及 e ~ N(0,1). 下 左 小 图 表明 了 对 
于 NSS 调节 器 的 被 估计 的 风险 , 它 是 拟 合 项 个 数 的 函数 .该 风险 是 用 下 面 调节 器 
最 小 化 的 : 

b= (1,---,1,0,---,0). 


下 右 小 图 显示 了 REACT 拟 合 . 请 和 图 5.6 作 比较 . n 
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图 8.1 Doppler 检测 函数 
EE: 真实 函数 . 上 右 : 1000 个 数据 点 . FE: 作为 拟 合 项 数目 的 函数 的 被 估计 的 风险 .下 右 ; 最 终 的 
REACT 拟 合 . 


8.21 例 (CMB 数据 ) ”对 于 例 4.4 的 CMB 数据 比较 REACT 和 局 部 光滑 . 用 
J = 6 个 基 函 数 使 (对 NSS) 估计 的 风险 最 小 . 图 8.2 显示 了 该 拟 合 , 它 类 似 于 第 5 
章 的 拟 合 (不 理会 方差 不 是 常数 的 事实 ). 风险 的 点 图 揭示 了 在 J = 40 附近 有 另 一 
个 局 部 最 小 值 . 下 右 小 图 利用 了 40 个 基 函 数 的 拟 合 . 该 拟 合 看 上 去 欠 光 滑 . m 


0 450 900 
图 8.2 对 CMB 数据 用 REACT 
上 左 : 利用 J = 6 个 基 函 数 的 NSS 拟 合 . 上 右 : 估计 的 风险 . 下 左 ; NSS 拟 合 , 用 了 J = 40 PERM. 


有 几 种 为 > 构造 置信 和 集 的 方式 . 从 置信 球 开始 . 首先 , 利用 7.8 节 的 任何 方法 ， 
为 9 = (91,…, 0n) 构造 一 个 置信 球 B。 然后 定义 


Cn = {r= Soom os (8.22) 
j=l 
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得 到 C, 是 rn 的 一 个 置信 球 . 如 果 利 用 7.8 节 的 枢 轴 方 法 , 得 到 下 面 定理 . 
8.23 定理 (Beran and Dümbgen, 1998) 4 6 X MON 或 NSS 估计 , #4 62 
为 定义 在 (8.12) 的 0? 的 估计 . > 


Wa 8n): De, - 6)? real, (8.24) 
j=l 
这 里 ， sy 
RO) + Ta 
P= ae > [Dao] 
+46? > (4 = =) [a - 8) + (28; - Do], 
> n 
及 


二 0, ign-J, 
”LU i>n-J. 


那么 , 对 于 任意 c> 0 及 mm > 1/2， 
lim UD 5 Pee € Bn) — (1 - a)| =0. 


moogce(m 


为 了 构造 置信 带 , 利用 Pn aOR 因而 能 够 用 5.7 节 的 方法 . 置 
信 带 由 (5.99) 给 出 , 即 


T(x) = (Fa(x) — EIEE), Pale) + ellela), . (8.25) 
ae, n 
COREIA] (8.26) 
j=1 
而 c 来自 方程 (5.102). 


8.3 不 规则 设计 


到 目前 为 止 假定 的 是 规则 设计 z; = i/n. 现在 放松 这 个 假定 来 应 对 不 规则 设 
计 (irregular design). 有 几 种 方式 来 处 理 这 个 情况 . 最 简单 的 是 利用 基 {1 ,9n}; 
它 是 关于 设计 点 z1,… ,zn 正 交 的 , BI Lo(Pp) 选择 一 个 基 , RHP, =n D6, 


而 6, 是 在 z; 上 的 点 概率 . 这 要 求 j 
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lol=1, j=l, n 


和 
(63,¢n) =0, 1<j<k&<n, 
这 里 ， 
(f,9) = [tooa = LD H(eda(as) 
i=1 
及 


Ii? = f Pear) = 二 P(e). 
i=1 
能 够 按照 Gram-Schmidt 正 交 化 方法 构造 这 样 一 个 基 . 具体 如 下 : 
令 gi,…,g 为 任意 方便 的 对 于 R 的 正 交 基 , 令 


yı(z) 


Teall’ v(x) = g1(7), 


f(z) = 
WH, 对 于 2 <r 和 mu 定义 


Wla) > 
or (a) = FE, dea) = r(x) — 》 a,565(2), 
Tell Z 


及 
arj = (gr, $j). 


那么 , didn 形成 一 个 关于 Py 的 标准 正 交 基 . 
像 以 前 一 样 , 现在 定义 


1 Š ; 
Zi = = SY ibs (21), j=1, n, (8.27) 


i=l 


2 
zian (05,2). 


因而 能 够 利用 在 这 一 章 发 展 的 方法 . 


84 密度 估计 


正 交 函 数 方法 还 可 以 用 于 密度 估计 . $ X1,.…,X 为 来 自 具有 密度 f 并 且 在 
(0,1) 上 有 支撑 的 分 布 FF 的 ID 样本 . 假定 fe L2(0, 1), 这 样 能 够 把 f 展开 成 


得 到 


F(z) = 0;9;(7), 
j=l 


8.5 方法 的 比较 
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这 里 , 正如 以 前 一 样 , 1,62,… 为 一 个 正 交 基 . 令 


1 2 
= AX), j=1,,n, 
i=l 


EZ) = /fodz= 0, 


V(Z;) = 2 [ $3 (x) f(a)da — a] =o}. 


正如 在 回归 情况 那样 , 对 于 j > mw KO; = 0, 并 且 用 调节 估计 6=b2 = 


bnZn) 来 估计 8 = (9,……,bn). 该 估计 的 风险 为 
R(b) = Sree? + 2 — b;)?6?. 
» 
3 = DH) -z 
i=l 
来 估计 oF, 并 用 Z? - 6? 来 估计 93; 那么 能 够 用 下 式 来 估计 风险 ， 


Rib) = 》 036? + Ya — b;)?(Z} — 63)+ 


j=l j=1 


(8.28) 


(b121,.…., 


(8.29) 


(8.30) 


最 后 , 在 某 调节 器 集合 M E, 用 使 得 Ro) 最 小 来 选择 6. 密度 估计 会 为 负 的 . 能 
够 用 割 补 术 来 弥补 这 一 点 : 把 密度 的 负 的 部 分 去 掉 , 然后 重新 正则 化 , 使 积分 为 1. 


Glad et al.(2003) 讨论 了 更 好 的 割 补办 法 . 


8.5 方法 的 比较 


至 今 为 非 参数 回归 引入 的 方法 是 局 部 回归 (5.4 节 ), 光滑 样 条 (5.5 节 ) AMIE 
函数 光滑 .在 许多 情况 下 , 这 些 方法 非 党 类似， 所 有 这 些 都 包含 了 一 个 偏 倚 - 方 
差 平衡 , 所 有 这 些 都 要 求 选择 一 个 光滑 参数 . 局 部 多 项 式 光滑 器 有 能 够 自动 纠正 边 
和 界 偏 倚 的 优点 ， 有 可 能 改进 正 交 函 数 估计 来 稍微 减轻 边界 偏 倚 , 参见 Efromovich 
(1999). 正 交 函数 光滑 的 一 个 优点 为 它 把 非 参 数 回归 转换 成 许多 正 态 均值 问题 , 它 
要 简单 些 , 至 少 为 了 理论 目的 是 如 此 . 这 些 方法 之 间 几 乎 没有 巨大 的 区 别 , 特别 在 
用 置信 带 的 宽度 来 评价 它们 的 区 别 时 更 是 如 此 . 每 个 方法 都 有 其 拥护 者 和 批评 者 . 


+ 160- 第 8 章 ”利用 正 交 函数 的 非 参数 推断 


聪明 的 做 法 是 对 每 个 问题 都 利用 所 有 可 行 的 方法 . 如 果 它 们 都 一 致 , 那么 应 该 基于 
方便 和 感觉 来 选择 , 如 果 它 们 不 同 , 那么 就 值得 探讨 它们 为 什么 不 同 . 

最 后 指出 , 在 这 些 方法 中 有 一 个 形式 上 的 关系 . 例如 , 正 交 函数 能 够 被 看 成 为 
具有 一 个 特殊 核 的 核 光滑 , 反之 也 一 样 . 细节 请 看 Hardle et al.(1998). 


8.6” 张 量 积 模型 


虽然 以 前 提 及 的 维 数 诅咒 在 这 里 仍然 适用 , 这 一 章 的 方法 完全 可 以 扩展 到 高 

维 . 

假定 r(z1,z2) 为 两 个 变量 的 函数 ， 为 简单 计 , 假定 0 < a,c. < 1. 如 果 
go, 91,… 为 关于 L2(0,1) 的 一 个 标准 正 交 基 , 那么 函数 


{Gj,e(21, za) = $5 (#1) (wa): j,k =0,1,---} 


形成 对 L2([0, 1] x [0, 1]) 的 一 个 标准 正 交 基 , 称 为 张 量 积 基 (tensor product basis). 这 
个 基 可 用 显然 的 方式 扩展 到 d 维 空间 . 
假定 po = 1, 那么 , 一 个 函数 re Lo([0, 1] x [0,1]) 能 够 在 张 量 积 基 展 开 成 


r(z1,22)= D> Bixgj(zi)gk(z2) 


jk=0 
=Bo + D> B,065(1) + DPosbi(z2) + > Bi,nG3(#1) Gu (2). 
gel j= jk=1 
这 个 展开 有 一 个 包含 均值 , 主 效应 和 交互 效应 的 类 似 于 ANOVA 的 结构 , 这 个 
结构 暗示 了 得 到 更 好 结果 的 一 种 方法 能够 在 高 阶 交互 效应 上 作出 更 强 的 光滑 性 
假定 以 得 到 更 好 的 收敛 率 (以 更 多 的 假定 为 代价 )， 参见 Lin (2000), Wahba et al. 
(1995), Gao et al. (2001) 及 Lin et al. (2000). 


8.7 文献 说 明 


REACT 方法 是 由 Beran (2000), Beran and Diimbgen (1998) 发 展 的 . Efrmovich 
(1999) 讨论 了 利用 正 交 函 数 的 一 个 不 同 的 方法 . REACT 置信 和 集 被 Genovese et al. 
(2004) 扩展 到 非常 数 方差 , 被 Genovese and Wasserman (2005) 扩展 到 小 波 , 并 被 
Jang et al. (2004) 扩展 到 密度 估计 . 


8.8 练 习 


1. 证 明 引 理 8.4. 
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. 证 明定 理 8.13. 
. 证 明 方程 (8.19). 

. 证 明 方程 (8.26). 

. 表明 估计 (8.12) 是 相合 的 . 

. 表明 估计 (8.12) 在 Sobolev 椭 球 上 是 一 致 相合 的 . 

7. 从 本 书 网 站 得 到 在 法 律 工作 中 收集 的 玻璃 碎片 数据 . > Y 为 折射 指数 , 并 令 z 为 铝 成 分 
(第 4 个 变量 ). 实行 非 参数 回归 来 拟 合 模型 了 = r(x) +e. 利用 REACT, 并 比较 局 部 线性 光滑 . 
估计 方差 , 为 估计 构造 95% 置 信 带 . 

8. 从 本 书 网 站 得 到 摩托 车 数据 协 变量 为 时 间 (ms), 而 响应 变量 为 撞击 时 的 加 速度 . 利用 
REACT 来 拟 合 数据 . 计算 一 个 95% 置 信 带 . 计算 一 个 95% 置 信 球 . 能 想 出 一 个 创造 性 的 方法 
来 展示 曾 信 球 吗 ? 

9， 从 模型 Yi = r(zi) + oei 产生 1000 个 观测 值 , 这 里 zi = ijm,er ~ N(0,1), 而 为 
Doppler 函数 . 相应 于 o = 0.1,0 = 1,0 = 3, 产生 三 个 数据 集 . 利用 局 部 线性 回归 和 REACT 
来 估计 该 函数 . 在 每 种 情况 , 计算 一 个 95% 置信 带 , 比较 拟 合 和 置信 带 . 

10. 重复 前 面 的 练习 , 但 利用 Cauchy 误差 而 不 是 正 态 误差 , 怎么 能 改变 方法 使 得 估计 更 加 
稳健 ? 

11. 从 (1/2).N(0, 1) + (1/2)N (p, 1) 产生 1000 个 数据 点 . 比较 核 密度 估计 和 REACT 密 
度 估计 . 试 u = 0, 1,2,3,4,5. 

12， 回 忆 一 个 调节 器 是 形状 为 6 = (by,…, bn) 的 任意 一 个 向 量 , 满足 0 < bj <1, j= 
1,.…,n. SSSA (greedy modulator) 是 在 所 有 调节 器 上 使 得 风险 R(b) 最 小 的 调节 器 b" = 
(bi, bh). 

(a) R b". 

(b) 如 果 试 图 从 数据 来 估计 b", 会 发 生 什么 ? 特别 地 , 考虑 取 使 得 估计 的 风险 R ehhi E. 
为 什么 这 个 不 那么 好 用 ? (问题 是 , 试图 在 一 个 非常 大 的 类 来 使 R 最 小 , 而 且 R 在 这 一 大 类 中 
并 不 是 一 致 近似 R.) 

15: $ 


Panag 


Yi = r(x, 12i) + 4, 
这 里 ,ec ~ N(0,1), zi = 24 = im 及 r(zhza) = zi + cosa. 产生 1000 个 观测 值 . 拟 合 一 个 
张 量 积 模型 ; 对 zi 用 Jy 基 元 素 , 而 对 zz 用 Jo 基 元 素 . 利用 SURE(Stein 无 偏 风 险 估计 ) 来 
选择 J) 和 In. 
14. 从 本 书 网 站 下 载 空气 质量 数据 集 . 在 模型 中 把 臭氧 作为 阳光 , 风 和 温度 的 一 个 函数 , 利 
用 一 个 张 量 积 基 . 
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本 章 涉及 的 估计 函数 是 空间 非 齐 次 (spatially inhomogeneous) 函数 r(x), 其 光 
滑 程度 随 着 z 而 有 本 质 性 地 改变 . 例如 , 图 9.1 显示 了 在 例 9.39 定义 的 “区 多 
(block)” 函数 . 该 函数 除了 在 几 个 突然 的 跳跃 之 外 非常 光滑 . 上 右 小 图 显示 了 按 昭 
模型 Y; = r(zi) + ei 抽取 的 100 个 数据 点 , 这 里 , e ~ N(0,1), 而 zi 是 等 距 的 . 

利用 至 今 已 经 讨论 过 的 方法 来 估计 r 是 困难 的 . 如 果 以 大 的 带宽 进行 局 部 回 
VA, 那么 会 把 跳跃 光滑 掉 . 而 如 果 利用 小 的 带宽 , 那么 将 找到 跳跃 , 但 将 使 其 余 曲线 
很 波动 . 如 果 利用 正 交 函 数 , 并 只 用 低 阶 项 , 将 会 失去 这 些 跳跃 , 如 果 人 允许 高 阶 项 
那么 能 够 找到 跳跃, 但 使 得 其 余 曲线 非常 波动 . 图 9.1 的 函数 估计 说 明了 这 个 问题 . 
另 一 个 非 齐 次 函数 的 例子 是 在 例 5.63 的 Doppler 函数 . 


-10 t =10 
0.0 0.5 1.0 0. 


.0 0.5 1.0 


图 9.1 区 组 函数 (上 左 图 ) 是 非 齐 次 的 
100 个 数据 点 显示 在 上 右 图 . 一 个 有 小 带宽 的 局 部 线性 光滑 器 找 出 了 跳跃 (下 左 图 ), 但 添加 了 许多 波动 . 一 
个 有 大 带宽 的 局 部 线性 光滑 器 很 光滑 (FAA), 但 失去 了 跳跃 . 


为 了 估计 这 样 函数 而 设计 的 估计 量 称 为 空间 适应 的 (spatially adaptive) 或 局 部 
适应 的 (locally adaptive)， 一 个 密切 相关 的 思想 是 发 现 全 局 的 适应 估计 , 它们 是 在 
很 大 的 函数 空间 类 上 运作 很 好 的 函数 估计 . 在 这 一 章 , 探索 适应 估计 , 重点 在 小 波 


9.1 Haar 小 波 .163 . 


方法 (wavelet method). 在 9.9 节 , 简略 地 考虑 某 些 其 他 的 适应 方法 . 

后 果 自 付 (caveat emptor)! 在 继续 进行 之 前 , 已 经 准备 了 一 个 警告 ， 适 应 性 估 
计 是 困难 的 . 除非 信 品 比 很 大 , 否则 不 能 期 望 适应 得 很 好 . 引用 Loader (1999b): 

局 部 适应 方法 在 有 大 量 数 据 、 明 显 的 结构 和 低 噪声 的 例子 中 运行 得 很 

ABR ovr 没有 困难 的 问题 …-…… 实际 的 挑战 ………… 出 现在 结构 不 明 

显 , 而 且 怀 疑 数 据 集 的 哪些 特征 是 真实 的 时 候 . 在 这 种 情况 , 相对 较 简单 

的 方法 ……， 是 最 有 用 的 ; 而 局 部 适应 方法 很 少 有 利 . 
力 劝 读者 在 继续 进行 时 记 住 这 一 点 . 参见 9.10 节 为 此 所 作 的 更 多 讨论 . 尽管 这 个 
警告 , 在 这 章 的 方法 是 重要 的 , 因为 它们 在 高 信 噪 比 的 情况 表现 很 好 , 而 且 更 重要 
的 是 , 在 该 方法 背后 的 思想 本 身 是 重要 的 . 

本 章 讨论 的 小 波 方法 说 明了 在 统计 和 机 器 学 习 中 日 益 重 要 的 一 个 概念 , 即 稀 
朴 (sparseness) 的 概念 . MRR f = Pu 在 一 个 基 61, b2,--» LÆRA (sparse), 


4 
如 果 多 数 6; EF (或 接近 零 ). 下 面 将 看 到 , 即使 某 些 稍微 复杂 的 函数 , 在 小 波 基 上 
展开 时 , 也 是 稀疏 的 . 稀疏 性 概括 了 光滑 性 : 光滑 函数 是 稀疏 的 , 但 还 有 某 些 不 光滑 
函数 也 是 稀疏 的 . 令 人 感 兴趣 的 是 , 注意 到 稀疏 不 能 被 Lo 范 数 捕捉 , 但 可 以 很 好 地 
被 Ly 范 数 捕捉 . 例如 , 考虑 n 维 向 量 a = (1,0,---,0) 及 5 = (1/Vi…,1/VD. W 
么 两 者 都 有 同样 的 L 范 数 : |all = llbllz = 1. 然而 , Ly 范 数 则 为 llalh = 》 lai = 
1 及 |lblh = 》|oal = Vin. Ly 范 数 反映 了 a 的 稀疏 性 . 


记号 EHNA, Z RRENA, 而 Z+ 表示 正 整 数 集合 一 个 函数 f 
的 Fourier 变换 (Fourier transform) f* 为 


r= /ae (9.1) 
这 里 i= VC ABE, HME LAAT 2 ME Fourier 


变换 (inverse Fourier transform) 


f(z) = x E Oat (9.2) 
所 恢复 . 对 给 定 函数 f 和 整数 7 F k, 定义 
frla) = DPs- k). (93) 
9.1 Haar 小 波 


从 称 为 Haar 小 波 的 简单 小 波 开始 . Haar 父 小 波 (Haar father wavelet) 或 Haar 
刻度 函数 (Haar scaling function) 定义 为 
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1, 0<e<1, 
$(7) = (9.4) 
0, 其 他 . 
母 Haar 小 波 (mother Haar wavelet) 定义 为 
-1, 0<z< 5 
W%(z) = (9.5) 
i, 3 ASEL 


对 于 任何 的 整数 7 和 k, 如 (9.3) 那样 定义 Wik(z) 及 她 k(z). 函数 wj AA Y 
一 样 的 形状 , 但 是 它 以 因子 27/2 重新 作 了 尺度 化 , 还 被 移动 了 一 个 因子 k. 参见 图 
9.2 关于 Haar 小 波 的 某 些 例子 . 


F 


0.5 


图 9.2 某 些 Haar 小 波 
E: 母 小 波 plz); 右 : pa,2(2). 


W; = {Wk k=0,1,-++,27 —1} 


是 在 分 辩 率 j 的 被 重新 尺度 化 和 被 移动 了 的 母 小 波 . 
9.6 定理 BHR 
{ Wo, Ti)} 


为 一 个 L2(0,1) 的 标准 正 交 基 - 
根据 这 个 定理 , 能 够 在 这 个 基 展 开 任何 函数 f E L2(0,1). 因为 每 个 W; 本 身 是 
一 个 函数 集 , 把 这 个 展开 写成 双重 和 : 


œ 2-1 


f(z) =ag(z)+》， > Biedne(2), (9.7) 


j=0 k=0 


这 里 ， 


9.1 Haar 小 波 “165 . 


1 1 
= | Hoseas, B= /Tirdz 
0 0 


称 a 为 刻度 系数 (scaling coefficient), 称 Aje 为 细节 系数 (detail coefficient). HK 
有 穷 和 
J-12)-1 
= a9(e) +) Yo Byedje(@) (9.8) 
j=0 k=0 


为 对 f RARE (resolution) J 近似 . 在 这 个 和 中 , 所 有 项 的 数目 为 


J-1 
1+ S02 =142/-1=2'. 
j=0 


9.9 例 图 9.3 显示 了 Doppler 信号 (P) 5.63) 及 其 解析 度 J 近似, 这里， 
J = 3,5,8. m 
04 
0.0 
-04 
1.0 


0.0 0.5 TO 0.0 0.5 1.0 


图 9.3 基于 JJ = 3( 右 上 ),J= 5( 左 下 ), J = 8( 右 下 ) 的 Doppler 信号 (上 左 ) 及 其 重建 
J-1 
f(z) = ap(z) +) > Bindse(@) 
OT 


当 ; 大 的 时 候 , ws 是 一 个 非常 局 部 化 的 函数 . 这 使 得 有 可 能 在 某 点 加 上 一 小 
点 于 函数 , 而 不 造成 其 他 地 方 的 波动 . 这 就 使 得 小 波 基 成 为 为 非 齐 次 函数 建 模 的 一 


个 好 工具 . 
图 9.4 显示 了 区 组 函数 及 函数 在 Haar 基 上 的 展开 系数 . 注意 , 展开 是 稀疏 的 


(多 数 系数 为 零 ), 此 因 非 零 系数 主要 在 跳跃 处 需要 . 
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Fe) 


00 05 3 To 

= | | LI l 由 
ABRIL 

mm = 


母 小 波 系 数 (水 平 1) 


[一 二 pers 


母 小 波 系数 (水 平 2) 


and ayaa al a 


母 小 波 系数 (水 平 3) 


图 9.4 区 组 函数 f(z) 在 最 上 面 图 显示 
第 二 图 显示 了 父 小 波 的 系数 ,第 三 图 显示 了 第 二 水 平 的 母 小 波 系数 .余下 的 图 显示 了 在 高 水 平 的 母 小 波 系 
数 . 尽管 函数 不 光滑 , 函数 还 是 稀 玻 的 : 多 数 系数 为 零 . 


9.2 构造 小 波 


Haar 小 波 之 所 以 有 用 是 因为 它们 是 局 部 化 了 的 , 即 它们 具有 有 界 的 支撑 ， 但 
是 Haar 小 波 并 不 光滑 . 怎样 构造 其 他 小 波 呢 ? 具体 地 说 , 如 何 能 够 构造 局 部 化 的 
光滑 的 小 波 呢 ? 答案 并 不 简单 . 将 给 出 主要 思想 的 简要 大 纲 . 更 多 细节 请 看 Hirdle 
et al. (1998) 及 Daubechies (1992). 
已 给 任意 函数 $, 定义 
Y= : f(s)=D cpr -hk), J k< 路 


keZ kez 
Vi = {f(z) = 9(2z): g € Vo}, (9.10) 


Va = {f (2) = 9(27): 9 Vi}, 


9.2 构造 小 波 +167 - 


9.11 定义 ”给 定 一 个 函数 8, 如 (9.10) 那样 定义 Vo,Vi,…. WR 


Vi C V+ 320, (9.12) 


及 
UV Æ LR) Fae, (9.13) 
j>0 
说 $ 产 生 了 民 的 一 个 多 分 辩 率 分 析 (multiresolution analysis, MRA). 称 9 为 父 小 
波 或 刻度 函数 . 

方程 (9.13) 意味 着 , 对 于 任意 函数 f e Lo(R), 存在 一 个 函数 序列 fi, fo,…, 使 
得 当 7 一 co 时 , 每 个 f, € UM K Ilf- — fll + 0. 

9.14 3E WR Vo, Vi 为 一 个 由 9 产生 的 MRA, ABA {0k k €Z} 为 Vj 
的 一 个 标准 正 交大. 

9.15 例 如果 p Æ Haar 小 波 , 那么 Vj 是 函数 f E LR) 的 集合 ; 对 
Fk eZ, CHE [k2 (k +127) 是 逐 段 常数 ”容易 验证 ，Vo, Vi,- 形成 一 个 
MRA. a 

假定 有 一 个 MRA. 因为 Be Wo 及 Wo CV, BA OE. BW {bir k eZ} X 
一 个 Vi 的 标准 正 交 基 , 能 把 o 写成 Vi 中 函数 的 线性 组 合 : 


olz) = >》 ttak(z)， (9.16) 
k 


这 里 , 和 = if G(z)bik(z)dz 及 FB < co. HH (9.16) 称 为 两 刻度 关系 (two-scale 
k 


relationship) 或 扩张 方程 (dilation equation). 对 于 Haar 小 波 , fo = 4 = 271/2 及 对 
k#0,1, & = 0. 系数 {lk} 称 为 刻度 系数 . 两 刻度 关系 暗含 着 


$"(t) = mo(t/2)¢" (t/2), (9.17) 
这 里 molt) = 》 ee */V2. 递归 地 应 用 上 面 公式 ， 可 以 看 到 好 区 = mo(t/2) 
大 


.JI motto" (0). 这 意味 着 , 仅 给 出 刻度 系数 , 就 能 计算 9° (t), 然后 取道 Fourier 
k=1 
变换 来 求 8(z). 下 面 定理 给 出 了 如 何 从 一 组 刻度 系数 来 构造 一 个 父 小 波 . 

9.18 定理 已 给 系数 {lnk EZ}, 定义 一 个 函数 


mo(t) = aa See. (9.19) 
k 
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gt) -Ür (5) ; (9.20) 
HHA o X O° Wik Fourier RR. 假定 对 于 某 No < Ni， 
1 es 
Z p2 &=1, (9.21) 


[mo(t)|? + |mo(t + DP =1, 


对 于 ltl < 1/2, molt) £0 及 存在 一 个 有 界 非 增 函 数 $, 满足 f O(lul)du < oo 及 对 
几乎 所 有 z, 
lġ(2)| < (lel), 
那么 9 RAMEN RAR, WL o 在 区 间 [No, N] 之 外 为 零 
下 面 定义 Wi 为 在 Veri 中 的 Vi 的 正 交 分 量 . 换 句 话说 , 每 个 / Veri 都 能 
够 写成 为 和 f= vp + wk, 这 里 , wk e Ve, we E€ We, 而且 w 和 wi 是 正 交 的 . 记 


View = Vi BD We. 
这 样 ， = 
LR) = Ve = Awm 
k 


定义 母 小 波 为 
yla) = V2 》 (-1) H4 -kg(27 — k). 
k 


9.22 EE 函数 {Vk EZ} 形成 一 个 Wi WH. 函数 
{bn, Vk, k €Z, j € Z4} (9.23) 
为 L2(R) 的 一 个 标准 正 交 基 . 因此 , 任何 f EL 能 写成 
f(z) = Poortorl®) + LD avn) (9.24) 
这 里 ， 
: aor = f Hoolas Aye = f sleyvse(w)ac. 
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一 直 用 Vo 表示 了 在 MRA 中 的 第 一 个 子 空间 . 这 仅仅 是 一 个 常规 . 同样 能 够 
用 Vig 来 表示 它 , 这 里 , jo 为 某 整数 . 在 这 种 情况 下 , 记 


f(z) = > ajokgjok(z) + 3, > Bin vie(2). 
k 


j=jo k 


当然 , 还 没有 解释 如 何 选择 刻度 系数 来 产生 一 个 有 用 的 小 波 基 . 这 里 不 讨论 细 
节 , 但 聪明 地 选择 刻度 系数 能 导致 具有 所 希望 性 质 的 小 波 . 例如 , 在 1992 年 , Ingrid 
Daubechies 构造 了 一 个 光滑 的 , 紧 支 撑 的 “几乎 ” 对 称 的 ?小 波 , 称 为 symmlet. 实 
际 上 , 这 是 一 个 小 波 族 . 一 个 N 阶 的 父 symmlet 有 支撑 [0,2N — 1], 而 母 symmlet 
有 支撑 [-N +1,N]. 母 symmlet 有 N SBSH (从 第 0 矩 开 始 )，N 越 高 , 小 波 越 
光滑 . 对 于 这 个 小 波 (或 大 多 数 小 波 ) 没有 封闭 的 形式 , 但 是 它 能 够 被 快速 计算 . 图 
9.5 显示 了 将 用 于 例子 的 symmlet 8 母 小 波 . 刻度 系数 为 

0.0018899503 -0.0003029205 -0.0149522583 0.0038087520 

0.0491371797 -0.0272190299 -0.0519458381 0.3644418948 

0.7771857517 0.4813596513 -0.0612733591 -0.1432942384 

0.0076074873 0.0316950878 -0.0005421323 -0.0033824160 


Si 


-2 0 
图 9.5 Symmlet 8 母 小 波 


9.3 小 波 回归 
考虑 回归 问题 
Yi =r(ai) + déi, (9.25) 
这 里 , e; ~ N(0,1) 而 且 ri = i/n. 进一步 假定 , 对 某 个 J, n= 27. 将 需要 对 于 接近 
0 或 1 的 zx 作 某 种 边界 纠正 , 先 推 后 讨论 这 个 问题 . 
O 不 存在 光滑 、 对 称 、 紧 支撑 的 小 波 . 
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为 了 利用 小 波 估计 r, 如 下 进行 : 首先 , 用 有 n 项 的 展开 来 近似 r: 


230-1 


r(x) ~ ra(z) = 2 ojok(z)gjok(z) + S SE antat) (9.26) 


j=Jo k=0 


RH, apa = /rowsGjdz Be Bn = rwxtojdz 称 {yes k= 01… 3 为 
水 平 j 系数 .形成 系数 的 预 估计 @， 


=2 DP del 和 De = EE valor (9.27) 


它 被 称 为 经 验 刻度 系数 (empirical scaling coefficient) 和 经 验 细节 系数 (empirical de- 
tail coefficient). 如 前 一 章 的 推理 , 有 


2 
SS (ee =) 和 Diks 和 N (a, =) : 


现在 利用 下 面 关 于 o 的 稳健 估计 : 
ala median(|Dy_1,~ — median(DJ-1k)| : k =0,---,24-! — 1) 


0.6745 


非 齐 次 函数 即使 在 最 高 水 平 J REUTER 而 这 个 稳健 估计 应 该 对 
这 种 系数 相对 不 敏感. 
对 于 刻度 系数 , 取 


jok = Sk- 


O 在 实践 中 , 不 利用 (9.27) 计算 Sk 和 Djk. 实际 上 如 下 进行 . 最 高 水 平 的 系数 asi 用 Yk 来 近 
似 , 这 是 有 道理 的 , 因为 5-1,k 是 高 度 局 部 化 的 , 并 因此 


E) = Tt/m = f fabs- (ede = 14: 
然后 , 应 用 层 肥 算法 (cascade algorithm) 来 得 到 其 余 的 系数 ; 细节 参见 附录 . 某 些 作者 定义 
Sk = -天 FE qiok(zi 中 和 Djk = Ay Wx (Zi) Yi 


而 不 是 利用 (9.27). 这 意味 着 Sk ~ N(Viiayo,k,0?) 及 Djk & NN(ViiBjks07). 因此 , 估计 应 该 除 以 Vi 
另外 , 方差 的 估计 应 该 改 为 
median(|[DJ_1k — median(Dy_1k)| : k = 0,---,27-! — 1) 

0.6745 ` 


2= 


94 小 波 A :171 


为 了 估计 母 小 波 的 系数 bir, 在 Dj 利用 一 个 特别 形式 的 称 为 阔 (thresholding) 的 
收缩 ; 将 对 其 在 下 一 节 作 更 详细 的 描述 . 最 后 , 把 估计 代入 (9.26): 


230-1 


Fale) = 2 Gokgjok(z) + > Fa Binbjn( 
k= 


j=jo k=0 


94 小 波 A 


小 波 回归 方法 除了 两 处 改变 之 外 , 和 在 第 8 章 所 用 的 方法 一 样 . 除了 小 波 基 不 
一 样 之 外 , 它 还 利用 不 同形 式 的 收缩 , WAR. 在 这 里 , 如 果 Djk, 则 By, BH 0. 
阅 在 函数 中 找 出 跳跃 方面 比 线性 收缩 更 好 . 为 了 看 其 理由 , 考虑 除了 在 几 个 地 方 有 
跳跃 之 外 其 他 地 方 都 光滑 的 一 个 函数 . 如 果 在 小 波 基 上 展开 这 个 函数 , 系数 将 是 稀 
Bi. 也 就 是 说 , 除了 相应 于 几 处 跳跃 的 系数 之 外 , 大 多 数 系 数 都 很 小 . 这 直观 上 
提示 : 除了 几 个 非常 大 的 之 外 , 应 该 把 大 多 数 估计 的 系数 设 为 零 . 这 也 刚好 是 阔 规 
则 所 做 的 . 在 下 一 节 更 正式 的 叙述 中 , 将 看 到 闭 收 缩 在 大 的 函数 空间 中 产生 了 最 小 
最 大 估计 . 下 面 是 一 些 细节 . 

父 小 波 的 系数 估计 ajor 等 于 经 验 系 数 Sk, 不 应 用 收缩 . 母 小 波 的 系数 估计 基 
于 收缩 那些 Dy. 具体 如 下 , 回忆 


Dir ~ Bik + om (9:28) 

在 第 7 章 和 第 8 章 所 用 的 线性 收缩 有 下 面 形式 : 对 于 某 0< c< 1, Bye = cDik. 对 

于 小 波 , 利用 非 线性 收缩 , KAR, 它 分 为 两 种 : BMA. 硬 阀 估计 为 
IDjxr| <A, 


= 0, 
Bik = { Dixy [Dyu| >A. (9.29) 
MR A 
Diti, Dj <a, 
Bu =¢ 0, -\< Dye <r, (9.30) 
“Dik =A; Diy >. 
它 能 够 写成 下 面 更 简略 的 形式 : 
Bix = sign(Djx)(|Djx| — A)+- (9.31) 


参见 图 9.6. 在 每 种 情况 下 , 效果 都 是 保持 大 的 系数 , 而 把 其 他 的 设 为 0. 
将 着 重 考虑 软 阔 , 还 需要 选择 阔 值 \ 有 几 种 方法 选择 A 最 简单 的 规则 为 普遍 
i) {A (universal threshold), 定义 为 


A= ay) 2er, (9.32) 
n 
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ÂD) ÂD) 3 
a , 
< =D - >D 
-À 入 -À 入 
Z 
mA Kia 


图 9.6 BARKA 

为 了 理解 该 规则 后 面 的 直观 意义 , 考虑 在 没有 信号 时 什么 将 会 发 生 , 即 对 所 有 的 j 
Al k, Bjr = 0 的 情况 . 这 时 希望 所 有 的 记 都 以 高 的 概率 为 0. 

9.33 定理 ”假定 对 于 所 有 的 了 和 k, By = 0, 并 令 BB 为 具有 普遍 阔 值 (9.32) 
Ket. 那么 当 n oo 时 ， 

P(Bk =0, 对 于 所 有 的 jk 成 立 ) 一 1. 

证 明 ”为 了 简化 证 明 , 假定 o 为 已 知 的 . WE, Dj, ~ N(0,0?/n). 回忆 Mill 
不 等 式 : WR Z~ N(0,1), 那么 P(\Z| > t) < (c/t)e-*/2, 这 里 c= V277 为 一 个 常 
数 . 这 样 ， 


P(max||Djx| >A) < DP(D| > à) < Zr (eeu > Aa) 
jk ak 


co 1nd? c 
Deel ae 
PSE He HT PUI EA TES SCRE. CRH, PUTAS JL Ae EA 


的 “ 神 论 ” 一样 好 . 
9.34 定理 (Donoho and Johnstone, 1994) 4 


Y= bitei, i=l enn 


Vn 
这 里 , ei ~ N(0,1). 对 于 每 个 5 C {1,…,n}, 定义 或 灭 或 存 统计 量 (kill it or keep it 
estimator) 


Os = (XiI(1 € S),---, XnI(n € S)). 


定义 神 论 风 险 (oracle risk) 
Rj, = min R@s, 6), (9.35) 


94 小 波 A TTS 


这 里 的 最 小 值 是 关于 所 有 或 灭 或 存 统计 量 所 取 的 , 即 3 在 所 有 {1,…,n} 的 子 集 上 
变化 . 那么 4 
ME A 
mad (kn 二 (9.36) 


再 者 , wR 
6 = (t(%), +++, t(Xn)), 


这 里 , t(x) = sign(x)(|2| 一 An)+ 及 An = oy2logn/n, 那么 , HEN OER", 
. 6 es 
Rt < RO,8) < (2logn +1) (Ż + r) : (9.37) 


Donoho and Johnstone PAA Yi BM Bit wVisuShrink. 另 一 种 
称 为 SureShrink 的 估计 是 对 每 个 水 平 用 不 同 的 说 值 和 ; 得 到 的 . BE A; 是 使 得 
SURE( 见 7.4 节 ) 最 小 化 得 到 的 , 在 这 种 情况 为 


ni [a2 rn cS 
5a) => [Z = 27 (lB <A;)+ min( 隐 ,区 | i (9.38) 
k=1 

这 里 , ny = 2- 为 在 水 平 j 的 参数 个 数 . 最 小 化 是 在 0 < Xi < (6/y) y 2ogn; 
进行 的 ®. 

9.39 例 ”由 Donoho and Johnstone (1995) 引进 的 “区 组 ”函数 定义 为 r(z) = 

11 

3.655606 x Shy K(x ~ ty), 这 里 ， 


jal 


t= (0.10, 0.13, 0.15, 0.23, 0.25, 0.40, 0.44, 0.65, 0.76, 0.78, 0.81), 
h= (4,-5.3, —4.5, —4.2, 2.1, 4.3, 一 3.1, 2.1, 一 4.2). 


图 9.7 的 上 左 小 图 显示 了 r(x). 上 右 小 图 显示 了 从 Y: = r(i/n) +e, 生成 的 2048 
个 数据 点 , 这 里 , ei ~ N(0,1). 下 左 小 图 是 利用 有 普遍 闵 值 的 软 阔 所 得 的 小 波 估计 . 
用 了 一 个 symmlet 8 小 波 . 下 右 小 图 显示 了 一 个 局 部 线性 拟 合 ; 其 带宽 是 用 交叉 验 
证 选 的 . 小 波 估计 稍微 好 些 , 此 因 局 部 线性 拟 合 有 某 些 额外 的 的 波动 . 然而 区 别 并 
不 很 夸张 . 这 种 小 区 别 在 诸如 信号 处 理 等 一 些 情况 下 可 能 重要 . 但 在 通常 的 非 参数 
HARE, 在 这 些 估计 量 之 间 没 有 多 大 实际 差别 . 事实 上 , 如 果 对 这 些 点 图 加 上 
置信 带 , 它们 将 无 疑 会 比 这 些 估计 的 差别 要 宽 得 多 . 


@ 实践 中 , SureShrink 有 时 作 增加 一 个 步骤 的 修正 ， 如 果 在 水 平 j 的 系数 稀疏 ,那么 就 用 普遍 阐 值 . 
见 Donoho and Johnstone (1995). 3 
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图 9.7 例 9.39 的 “区 组 ”函数 
上 左 : 函数 r(x). EAT: 2048 个 数据 点 . FÆ: Pn, AAD. 下 右 : ,利用 局 部 线性 回归 ,带宽 用 交叉 验 
证 选取 . 


这 是 一 个 容易 的 例子 , 这 是 因为 噪声 水 平 低 而 使 得 曲线 的 基本 形状 从 数据 图 看 
来 是 明显 的 . 考虑 该 例 的 有 更 多 噪声 的 形式 . 把 o 增加 到 3, 并 且 把 样本 量 减少 到 
256. 结果 在 图 9.8 之 中 . 这 里 很 难说 哪个 统计 量 要 好 些 . 没有 一 个 做 得 特别 好 . m 


in Sere 
foot di 


图 9.8 例 9.39 的 “区 组 ”函数 
上 左 : 函数 r(x). 上 右 : 256 个 数据 点 . FE: ,利用 小 波 . FE: Fn; 利用 局 部 线性 回归 , 带宽 用 交叉 验 
证 选取 . 


9.5 Besov 空间 


小 波 阔 回 归 估计 在 马上 定义 的 Besov 空间 有 好 的 最 优 性 质 . 令 


AM F(e) = > (;) (-1)* f(x + kh). 


k=l 


9.5 Besov 空间 .175 - 


这 样 , AP f(a) = f(z) 及 
AP f(x) = ALY fa +h) — ALY F(z). 
下 面 定义 


wrp (Fst) = sup [AY fllo 
Inhlst 


1/p 
这 里 ,lls = { f ioceyPae} HE (prao), & r WE r1 <6 < r Besow 半 
范 数 (Besov seminorm) 定义 为 


Wrp(f;h) 
ba = su penal A AAAS . 
Mlb, Ocnei hs 


XF q= 00, 定义 


Besov 空间 (Besov space) B$ (c) 定义 为 把 [0,1] 投影 到 R 的 函数 S 的 集合 , 满足 


[sh < Be gase 

这 个 定义 不 易 理 解 , BEARER. Sobolev 空间 W(m)( 见 定义 7.8) 相应 于 
Besov BR By. 广义 Sobolev 空间 W,(m) 在 m 阶 导 数 利用 Ly 范 数 , 它 几乎 是 一 个 
Besov 空间 , BI Bm, C Wp(m) C Bm. 对 某 整 数 m 和 某 5 € (0,1), $ s =m +ô. 
Hilder 空间 (H6lder space) 是 具有 有 界 m 阶 导数 的 有 界 函数 的 集合 , 对 于 所 有 的 
ut, 满足 |f™(w) - FPO < lu- të. 这 个 空间 等 价 于 BL. 集合 了 包含 有 界 变 差 
的 函数 , 满足 Bi, CT C Bi. 这样 , Besov 空间 包括 了 很 多 熟悉 的 函数 空间 . 

利用 小 波 展开 系数 则 很 容易 理解 Besov 空间 ， 如 果 小 波 充分 光滑 , 那么 函数 
Í E Bg alc) 的 小 波 系数 8 满足 ||8|l5,。 < c, KH, 


z 1/p79) 1/4 
llalls,s = 全 [ee (Zir) | ) F (9.40) 
k 


j= 


在 下 面 的 定理 中 , 用 记号 a, x bn 表示 an 和 jn 以 同样 速率 趋 于 0. 形式 上 ， 


-i elan 
0 < liminf z| 


an 
一 | < oo. 
| 


< limsup 
nmo0 


9.41 定理 (Donoho and Johnstone, 1995) 4 7, X SureShrink 估计 . 4 y A 
r NBR r 阶 连续 导数 , 这 里 7 > max{1,6}. + Ra(p gs C) 表示 在 Besov R 
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B; (C) 上 的 最 小 最 大 风险 . 那么 ， 


sup ŻE (Ere -ro) >= Rn(pg,5,0), 


réBs,,(C) 7 


对 于 所 有 的 1 < p,q < oo0,C E (0,00) 及 o<s<r KU, KE, 


Eo PE ANT 
人们 } 
在 这 个 空间 范围 内 , 没有 线性 估计 达到 这 个 最 优 率 . 除了 一 个 logn 的 因子 ,该 普遍 
收缩 规 还 达到 最 小 最 大 率 . 
该 定理 说 , 基于 闵 规 则 的 小 波 估计 在 很 大 的 Besov 空间 集合 同时 达到 最 小 最 
KR. 其 他 估计 , 如 有 常数 带宽 的 局 部 回归 估计 , 则 没有 这 个 性 质 . 


96 置信 集 


在 写本 书 时 , 还 没有 为 小 波 估计 的 实用 联 立 置信 带 . Picard and Tribouley (2000) 
给 出 了 一 个 渐 近 的 逐 点 方法 . Genovese and Wasserman (2005) 给 出 了 置信 球 . 
对 于 Besov 空间 BS, 令 


S, p22, 
q= (9.42) 


1 #1 
fry l<p<2. 


令 Bip, 4,7) 为 相应 于 Besov 空间 的 函数 的 小 波 系数 集合 . 假定 , 父母 小 波 为 有 界 
的 , 有 紧 支 撑 , 并 且 有 有 和 穷 Lo 范 数 的 导数 . 令 u” = (m,n) 为 头 个 突出 作 
为 单独 向 量 的 小 波 系数 . < 

9.43 定理 (Genovese and Wasserman, 2004) 4 户 为 利用 普遍 软 闵 和 = 
人 Viogmn/m 估计 的 小 波 系数 . 定义 


Du = fw : D (we - fe)’de < al ， (9.44) 
id 《=1 P 
这 里 ， 
a= Vai 十 Sn(A)， (9.45) 


ey g 
Sa (à) = Tah + 和 SO (9.46) 


j=jo 


9.8 过 完全 字典 .177 


及 


nj 


o OF ae Z2 2 
8305) =o |Z = 2S 10Biul < a5) + nin BAD) 
k=1 
那么 , 对 于 任意 5 > 0， 


lim sup |P(u” € D,)— (1—a)|=0, (9.47) 
nO? pea(s) 
这 里 ， 

A4(6) = U {B(p, 4,7): p> 1, q> 1, y> (1/2)+ ô}. 


9.7 边界 修正 和 不 等 距 数据 


如 果 数 据 限于 区 间 , 而 小 波 基 却 是 在 R 上 的 , 那么 需要 进行 修正 , 因为 限制 于 
期 间 的 小 波 通常 并 不 正 交 . 最 简单 的 方法 是 对 数据 做 镜像 (mirror). 在 端点 附近 , 数 
据 以 相反 的 次 序 重 复 . 那么 前 面 讨论 的 方法 就 适用 了 . 

当 数 据 不 等 距 或 者 n 不 是 2 PHC, 能 够 把 数据 放 入 等 空间 的 箱 中 , 并 且 在 
各 箱 中 平均 数据 . 只 要 箱 里 面 有 数据 , 而 且 对 某 整 数 k, 箱 的 数目 m 有 形式 m = 2k, 
选择 尽 可 能 小 的 箱 . 

关于 这 些 问 题 的 其 他 方法 , 参见 Hirdle et al.(1998) 及 其 索引 . 


9.8 过 完全 字典 


虽然 小 波 基 非 常 灵 活 , 但 有 时 可 能 需要 更 加 丰富 的 基 . 例如 , 可 能 想 把 几 个 基 
合并 起 来 . 这 导致 了 字典 (dictionary) 的 思想 . 

令 工 = (Yi, Yn)” 为 观测 值 的 一 个 向 量 , 这 里 , Yi = r(zi) +i. & 万 为 一 
个 nxm 矩阵 , m > n. 考虑 利用 DB 来 估计 r, 这 里 , B = (B1,…,Bm)T. WR m 
等 于 n, 而 且 D 的 列 为 正 交 的 , 则 回 到 了 本 章 和 上 一 章 的 正 交 基 回归 的 情况 . 但 是 ， 
当 m > n 时 , 列 不 再 是 正 交 的 了 , 则 说 字典 是 过 完全 的 (overcomplete). 例如 , 可 能 
想 取 有 m = 2n 列 的 D: 头 n 列 为 一 个 余弦 基 的 基 元 素 , 而 后 n 列 为 一 个 “尖峰 
(spike)” 基 的 基 元 素 . 这 使 得 能 够 估计 一 个 “光滑 加 上 人 尖峰” 的 函数 . 

有 逐渐 明显 的 理论 和 实践 证 据 表明 ， 这 个 被 Chen et al. (1998) MAF 
踪 (basis pursuit) 的 方法 导致 好 的 估计 . 在 这 个 方法 中 ， 人 们 选择 B 来 使 下 式 最 


小 : 


IY — DAIR + Alalh, 
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RE, ||- ||2 表示 za 范 数 , || | 表示 L WH, A> 0 为 一 个 常数 . 基 寻 踪 和 称 
为 lasso (Tibshirani, 1996) 和 LARS(Efron et al., 2004) 的 回归 变量 选择 方法 有 关 . 


9.9 其 他 适应 性 方法 


除了 小 波 之 外 , 还 有 许多 空间 适应 性 方法 . 这 些 方法 包括 可 变 带 宽 核 方法 (Lep- 
ski et al., 1997; Miiller and Stadtmller, 1987), 局 部 多 项 式 (Loader, 1999a; Fan and 
Gijbels, 1996), 可 变 结 点 样 条 (Mammen and van de Geer, 1997) 等 . 这 里 略 述 源 于 
Goldenshluger and Nemirovski (1997) 的 一 个 特别 简单 的 别致 方法 , 称 为 相交 置信 
区 间 (intersecting confidence intervals, ICI). 

考虑 在 一 个 点 z 估计 回归 函数 r(z), 并 令 Yi = r(zi) + et 这 里 ,et ~ N(0,0?). 
为 简化 讨论 , 将 假定 o 已 知 . 其 思想 是 利用 一 个 递增 带宽 h 的 序列 来 为 r(z) 构造 
一 个 置信 区 间 . 将 选择 使 得 那些 区 间 没 有 交集 的 第 一 个 带宽 . 参见 图 9.9. 


这 个 区 间 长 度 为 4p 


PER 
1 
图 9.9 Goldenshluger 和 Nemirovski ICI 方法 
所 有 的 区 间 {D; : j < j”} 包含 真实 值 r(z). 所 有 的 区 间 {Dj : j < j+} 有 交集 . 估计 量 F(z) 距离 r(x) 
不 超过 2pj+ + 4pj* < 6pj*… 
令 
Falz) = 》 Yili(z,) 
i=1 


为 依赖 于 带宽 h 的 一 个 线性 估计 . 令 带宽 h 在 一 个 有 限 集 h < … < hn 变化 , 并 


9.9 其 他 适应 性 方法 -179- 


$ Y =F, (x). 例如 ,为 在 [0,1] 上 等 距 , 则 取 hj = j/n. 能 够 写 


Fy = D_r(zi)&i(z, hj) + j, 
i=1 


ee Satis, hj) ~ N(0,83), sj =0,| Y Êl, h). 
i=) i=1 


$ pj = ksj, 这 里 k > /Togn. 那么 , 4n oo 时 ， 
P(maxlé;| > pj, 对 某 个 7 成立) < nP(|N(0,1)| > x) > 0. 


这 里 ， 


这 样 , 除了 一 个 趋 于 0 的 概率 集合 之 外 , 对 所 有 的 j, |&j| < pj;. 对 剩 下 的 推理 , 假定 
对 于 所 有 的 j, 161 < p- 
形成 n 个 区 间 


Dj = [F(z) — 295,7; (x) +2pj, j=1,.,n. 


适应 性 估计 定义 为 
F(x) = D+ (2), ` (9.48) 
这 里 , j+ 为 使 得 这 些 区 间 有 交集 的 最 大 整数 : 
k 
jt = max fe- Ano). (9.49) 
j=l 


现在 略 述 为 什么 A(z) 是 适应 性 的 . 
令 = EG), 并 注意 


[Fj — r(@)| < I = Fal + Fy — r(z)| = b; + 1G), 


这 里 , by = [; -T 为 偏 倚 . 正如 对 大 多 数 光滑 器 那样 , 假定 当 7 增加 时 , by 随 北 
减 , 而 s? = V(&;) 递增 . > 


J* = max{j : bj < pj}. 


带宽 hj. 平衡 偏 倚 和 方差 . 使 用 带宽 h 的 估计 的 风险 为 p;-. 因此 , p; 为 知道 最 
好 带宽 的 神 论 估 计 的 风险 . 将 称 pj- 为 神 论 风 险 . 

对 于 了 和 j*, (Arle) <b; +95 < 2p;. 因此 , 对 于 所 有 的 了 < j*,r(z) e Dy. F 
别 地 , 所 有 的 D; (G < j*) 至 少 有 一 个 共同 点 , 即 r(z). 根据 j+ 的 定义 得 到 j* < jt 
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另外 , D;- 中 的 每 一 点 到 r(z) 的 距离 最 多 是 4pj-. BA, Dj 门 Dj… 队 D (根据 六 
的 定义 ), 而 且 D 有 一 半 的 长 度 2pj:. 这 样 ， 


[F(z) = r(@)| < (F(z) — Fe| + [B+ —7(D)| < 2pj+ + 40; < 6p;-. 


结论 是 , 以 概率 趋 于 1, 有 Fe) 一 r(z)| < 6p;-- 
下 面 是 这 个 思想 的 一 个 特别 的 实践 . 在 包含 了 点 re (0,1) 的 一 个 区 间 A 上 拟 
合 一 个 m 阶 多 项 式 . 对 于 权重 aa(zi,z), 得 到 的 估计 为 


Fala) = J aale, 2)¥. 


_ 这 里 的 权重 能 够 写成 为 


m s EA 了 
sae- Sate) (F=2) ， 
这 里 ,a = min{zi : zi € A} 及 b= max{z; : zi € A}. 能 够 表明 
laa(z:)| < $5, 
‘a 
这 里 , Na 为 在 4 中 的 点 数 , 而 cm 为 仅仅 依赖 于 m 的 常数 . 还 能 够 表明 , 量 


= Na (i) 
Tm = G max |aa (E) 


仅 依赖 于 m. & 
Da = [Fa — 2x84, Fa + 2x54), 
这 里 ， 
1/2 
54= bs ae ， 
及 


kn = 20V(m + 2)logn2™(m + 1), Tm- 
现在 , 令 A 为 4 包含 z 的 并 满足 


的 最 大 区 间 , 这 里 , D 表示 所 有 包含 z 的 区 间 . 最 后 , 令 Aa) = Fa (2). 
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现在 , 假定 在 区 间 A = [z — 50, z+iol C [0,1] E, 对 于 某 个 L> l,r 为 4 次 
可 微 的 . 仍然 假定 , 对 于 某 工 > OR p>I, 


1/p 
[ ji oopa] T, 
o 


€<gm+l1, p>1. 


这 里 ， 


MAA 下 面 定理 : 
9.50 定理 (Goldenshluger and Nemirovski, 1997) ”在 上 面 的 条 件 下 , 对 于 某 个 
仅 依赖 于 m 的 C>0， 


[EIF(z) — r(2)/?]*”? 


(pé-1)/(2p6+p—2) 
By = (=) e LP/Cpt+p-2) 十 Eg b (9.52) 
n nõo 


(9.51) 的 右边 除了 对 数 因子 之 外 是 最 好 可 能 的 风险 . 由 Lepskii (1991) 的 结果 , 该 
对 数 因子 是 不 可 避免 的 . 由 于 估计 不 用 光滑 参数 pb, L, 这 意味 着 估计 适应 于 未 知 
的 光滑 性 . 

简单 描述 Lepski et al. (1997) 方法 (的 一 个 版 本 ). 令 H = {ho, h,- , hm} 为 
带宽 的 一 个 集合 , 这 里 , hj = 075, 而 a > 1( 他 们 用 a = 1.02), 而 mm 满足 hm © 0? /n. 
令 Pala) 为 基于 带宽 h SKK 的 核 估计 . 对 每 个 带宽 h, 检验 下 面 假设 : 进一步 减 
少 h 不 会 显著 改进 拟 合 . WA 为 使 检验 不 拒绝 的 最 大 带宽 . 具体 地 ， 

R= max{h eH: (Pala) —7y(2)| < Ylha), 对 所 有 的 n < hyn © HRE), 


这 里 ， 


< CBr, (9.51) 
这 里 ， 


v(h,n) = 至 人 十 log 全 
及 D > (1+ ||K || V14). 他 们 表明 , 这 个 带宽 选择 方法 产生 了 一 个 适用 于 一 个 宽 范 
围 的 Besov 空间 的 估计 . 
9.10 适应 性 方法 管用 吗 


跟随 着 Donoho and Johnstone (1994) 的 某 些 思 想 , 仔细 看 看 空间 适应 的 想法 . 
令 41,…, Ar 为 划分 [0,1] HEA: 
` Ay = [aoa)，42= [a1,02), ---, A= [az-az], 
O 我 以 非常 特殊 的 形式 叙述 这 个 结果 . 原先 的 结果 比 这 个 更 一 般 . 
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L 
这 里 , oo =0 及 ar = 1. 假定 7 为 一 个 逐 段 多 项 式 , 使 得 r(z) = 》 pe(z)T(z € Ae), 


=1 
这 里 pe 为 在 集合 Ac 上 的 一 个 D 阶 多 项 式 . 如 果 已 知 分 割 点 a = (a1,…,aL) 和 
阶 数 D, 那么 能 够 利用 最 小 二 乘法 在 每 个 A 拟 合 一 个 D 阶 多 项 式 . 这 是 一 个 参数 
问题 , 而 风险 为 O(1/n) 阶 . 如 果 不 知道 分 割 点 并 且 拟 合 一 个 核 回 归 , 那么 可 以 
表明 , 由 于 在 分 割 点 可 能 的 不 连续 性 , 风险 一 般 不 会 好 于 O(1/ VA) Br. 作为 对 照 ， 
Donoho and Johnstone 表明 , 小 波 方法 有 O(log n/n) 阶 的 风险 . 这 是 一 个 印象 深 的 
理论 成 就 . 

另 一 方面 , 像 已 经 见 到 的 例子 所 暗示 的 那样 , 实际 的 好 处 常常 是 不 那么 大 的 . 
从 推断 的 角度 ( 它 在 估计 中 的 特征 是 真 的 吗 ?), 第 7 章 的 结果 表明 , 小 波 置信 球 不 
能 以 快 于 n 的 速率 收敛 . 为 了 看 到 这 一 点 , 再 一 次 考虑 逐 段 多 项 式 的 例子 . 即 
使 知道 7 是 个 逐 段 多 项 式 , 仍然 得 出 向 量 (r(z1),…, "(zn)) 能 够 取 R" 中 的 任意 值 . 
然后 从 定理 7.71 得 到 , 没有 置信 球 能 够 收缩 得 比 n-14 更 快 . 这 样 , 就 处 于 一 个 特 
别 的 状况 , 即 函数 估计 可 能 收敛 得 快 , 但 置信 集 收敛 得 慢 . 

这 样 , 适应 性 方法 有 没有 用 ? 如 果 需 要 一 个 精确 的 函数 估计 , 而 且 噪声 水 平 低 ， 
那么 答案 就 是 : 适应 性 函数 估计 是 非常 有 效 的 . 但 是 , 如 果 面 对 一 个 标准 的 非 参 数 
回归 问题 , 而 且 感 兴趣 于 置信 集 , 那么 适应 性 方法 不 比 诸如 固定 带宽 的 局 部 回归 那 
样 的 其 他 方法 显著 地 好 . 


9.11 文献 说 明 


对 小 波 的 一 个 好 的 引 论 是 Ogden (1997). 更 加 先进 的 一 个 处 理 可 在 Hardle et 
al. (1998) 找到 ， 利 用 小 波 的 统计 估计 理论 已 经 被 许多 作者 发 展 , 特别 是 David 
Donoho and Iain Johnstone. 主要 思想 是 在 下 面 一 系列 出 色 的 文章 中 : Donoho and 
Johnstone (1994, 1995, 1998), Donoho et al. (1995)， 关 于 置信 集 的 材料 来 源 于 


Genovese and Wasserman(2005). 


9.12 W x 


小 波 的 局 部 化 . 小 波 比 正弦 和 余弦 更 加 局 部 化 的 思想 能 够 精确 地 表述 出 来 . 已 
给 一 个 函数 f, 定义 其 半径 为 


a= [ [e-wr@prer| E 


9.12 附 录 + 183 - 


== hp /Pe 
想象 , 在 平面 上 画 边 长 为 As 及 Ar 的 一 个 矩形 . 对 于 一 个 像 余弦 那样 的 函数 , 这 
是 一 个 在 y 轴 是 0 宽度 , 在 z 轴 是 无 穷 宽度 的 矩形 . 余弦 在 频率 上 局 部 化 , 但 在 空 
间 上 非 局 部 化 . 作为 对 照 , 小 波 具有 在 两 个 维度 上 边 长 都 有 限 的 矩形 . 因此, 小 波 
在 频率 和 空间 上 都 局 部 化 了 . 能 够 多 么 好 地 在 频率 和 空间 同时 局 部 化 是 有 限度 的 . 

9.53 定理 (Heisenberg 不 确定 关系 ) 有 

AjAj- > (9.54) 

这 里 , 当 为 正 态 密度 时 , 等 式 成 立 . 

这 个 不 等 式 称 为 Heisenberg 不 确定 原理 (Heisenberg uncertainty principle), 这 
是 因为 当 Heisenberg 正在 发 展 量子 力学 时 它 首先 出 现在 物理 文献 中 的 . 

小 ` 波 的 快速 计算 . 刻度 系数 使 得 计算 小 波 系数 简单 了 . 回忆 


oj = J J(z)giklzjdz 及 Pir = / JW 
根据 定义 , Wix(z) = 2;/29(27z 一 k), 而 根据 (9.16), 9(2iz — k) = J trgr(27z — k). 
因此 ， 


djl =e 2912 $y (Qa — k) = X £,20+Y/2 (2414 — 2k — r) 
= > £rb541,642k (2) = 2 4 a 
这 样 ， 
an= | fonas = f TOE 
=E t-n | Obrade = Y bnan 


类 似 的 计算 可 以 得 到 Bj = 》 (1V Hraj 概括 起 来 , BAIT NE 
等 式 (cascade equality): j 


ERE HX, 


Qjk = ys 一 2kQ5+Lry (9.55) 
7 


Bir = X (-1) Thrtartiaitlr: (9.56) 
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一 旦 对 某 个 J 有 了 刻度 系数 {oj}, 可 以 利用 层 又 方程 (9.55) 和 (9.56) 对 
所 有 j< J 确定 {oj} 和 {Bx}. 这 个 计算 系数 的 方法 称 为 金字 塔 算法 (pyramid 
algorithm) RAE H$ (cascade algorithm). 

在 回归 问题 , 将 利用 数据 Yi, , Yn 来 近似 刻度 系数 到 某 高 水 平 J 从 金字 塔 算 
法 再 得 到 其 他 系数 ， 这 个 过 程 称 为 离散 小 波 变 换 (discrete wavelet transformation). 
EMF n 个 数据 点 仅 要 求 O(n) 个 运算 操作 . 

这 些 思 想 能 够 以 信号 和 滤波 器 的 语言 表示 . 一 个 信号 (signal) 定义 为 一 个 序列 
{fr}xez, 满足 》 SR < co. 一 个 滤波 器 (filter) 是 运作 在 信号 上 的 一 个 函数 . 一 个 滤 


波 器 4 可 以 由 某 些 系数 {akjkez 来 表示 , 而 4 在 信号 f 上 的 称 为 离散 卷 积 (discrete 
convolution) 的 操作 产生 一 个 用 Af 表示 的 新 的 信号 , 其 第 k 个 系数 为 


(Af)k = >》 aan fr (9.57) 


令 aj, = {ajkjkez 为 在 水 平 7 的 刻度 系数 . 令 L 为 具有 系数 {4e} 的 滤波 器 . LR 
为 一 个 低 通 滤波 器 (low-pass filter). 由 方程 (9.55) 得 到 


Qj-y, = Laj, 及 adj-m, = L™a;,, (9.58) 
这 里 ，Zm 意味 着 : 应 用 m 次 滤波 器 . > HARARY hk = (一 1)*+141_k 的 滤波 
器 . 那么 (9.56) 暗含 着 

Bj-1, = Haj, 及 Bj-m, = HL™!a;.. (9.59) 

H 称 为 一 个 高 通 滤波 器 (high-pass filter). 图 9.10 为 关于 这 个 算法 的 示意 性 表示 . 
bs Can cbs dy hw 

H N H 

x Bu, Bra, = 


图 9.10 eRe 


9.13 练 习 


1. 表明 , 对 于 Haar 小 波 , lo = 4 = 2-1/2, 及 对 于 大 关 0,1 A & 二 0. 
2. 证 明定 理 9.6. 

3. 证 明 Haar 小 波形 成 一 个 MRA( 见 例 9.15). 

4. 证 明 方程 (9.17). 


913 % J + 185- 


5. 生成 数据 
Y: =r(i/n) +06, 

这 里 , r X Doppler 函数 , n = 1024, 而 e ~ N(0, 1). 

(a) 利用 小 波 拟 合 曲线 . 试 下 面 的 收缩 方法 : (i) 把 James-Stein 应 用 到 每 个 解析 度 水 平 ; (ii) 
普遍 收缩 ; (iii) SureShrink. 试 o = 0.01,c = 0.1,0 = 1. 把 该 函数 估计 与 REACT 方法 及 局 部 
线性 回归 比较 . > 

(b) 重复 (a), 但 是 在 e 加 上 如 下 产生 的 离 群 点 : 


éi ~ 0.95 N(0, 1) + 0.05 N(0, 4). 


这 如 何 影 响 你 的 结果 ? 
6. 令 XX，,… Xn ~ 了 这里, f 为 在 [0,1] 上 的 某 个 密度 . 考虑 构造 一 个 小 波 直方 图 . 令 o 
Al ob H Haar 父 小 波 和 母 小 波 . 记 


J -1 


f(z) ~ 9(z) + > D PixyWik(z)， 


j=0 k=0 


这 里 ,J sib(n + 1). 小 波 系数 总 数 大 约 为 n. 现在 ， 
; i 
Ba = f Yon (2) f(x) da: = Ey (yn (X)). 


一 个 Bir 的 无 偏 估计 为 
Bn = 3D a(i). 
izi 
(a) HF z <y 定义 
Ney = DI(z < Xi <y). 


1 
表明 
~ 21/2 
Bir = =p Nararya) — Nakti]. 
(b) 表明 
Bir ~ N (Bir, 03x) 
找到 oj 的 一 个 表达 式 . 
(o) 考虑 收缩 估计 久 = oj 房 & (在 每 个 小 波 水 平 有 同样 的 收缩 系数 )， 把 oj 看 成 已 知 的 ， 
找到 使 得 Stein 无 偏 风 险 估计 最 小 的 aj. 
(d) 现在 , RH oj 的 一 个 估计 . 把 这 个 估计 代入 关于 ai 的 公式 . 现在 有 一 个 估计 密度 的 
方法 . 最 后 的 估计 为 
Fe) = 42) + OY Bedale). 
ji ok 
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对 从 本 书 网 站 得 来 的 间歇 温泉 持续 时 间 的 数据 试 这 个 方法 . 把 它 与 使 用 交叉 验证 选择 箱 宽 
而 得 的 直方 图 比较 . 

(e) 注意 , Bj. 为 27/2 倍 于 两 个 样本 比例 的 差 . 而 且 , Bj = 0 相应 于 两 个 总 体 二 项 分 布 参 
数 相等 、 因此 , 能 够 如 下 形成 一 个 硬 阔 估计 : 检验 (在 某 水 平 a) RAB bjr = 0, 并 且 仅 仅 保 
留 那些 被 拒绝 了 的 . 把 这 个 用 于 (d) 中 的 数据 . 试 不 同 的 a 值 . 

7. $ Rp 为 定义 在 (9.35) 中 的 神 论 风 险 . 

(a) 表明 


Rey (Ene), 
i=l ae 
这 里 , aN b= min{a, b}. 


(b) 把 Ra 与 在 定理 7.28 中 的 Pinsker 界 做 比较 . 对 于 哪些 向 量 9 ER”, Ra 比 Pinsker 
RA? i 

8. 找到 关于 硬 阔 规则 及 软 阔 观测 的 风险 的 精确 表示 (把 o 看 成 已 知 的 ). 

9. 生成 数据 

Yi =r(i/n) + déi, 

这 里 , r X Doppler 函数 , n = 1024, 而 e ~ N(0,1), o = 0.1. 应 用 9.9 节 的 ICI 方法 来 估计 
r. 利用 一 个 核 估计 , 并 取 带 宽 的 格子 点 为 {1/n, 1}. 首先 , 把 o 看 成 已 知 的 . 然后 利用 5.6 
节 的 方法 之 一 来 估计 o. 再 应 用 5.6 节 的 Lipski et al. (1997) 的 方法 . 


第 10 章 其 他 问题 


， 在 这 一 章 , 提 及 关于 非 参 数 推断 的 某 些 其 他 问题 , 包括 测量 误差 、 逆 问题 、 非 
参数 贝 叶 斯 推断 、 半 参数 推断 、 相 关 的 误差 、 分类、 得、 限制 形状 推断 、 检 验 和 计 
算 . 


10.1 测量 误差 


假定 感 兴趣 于 把 输出 Y 向 协 变量 X 上 作 回 归 , 但 是 不 能 直接 观测 X. 然而 能 
够 观测 X 加 上 误差 U. MWA (X7, Yi), (XR, Yn), 这 里 ， 
Yi =r(X;) + éi, 
XP=Xi4U;, E(U;) =0. 
这 称 为 一 个 测量 误差 (measurement error) 问题 或 者 变量 中 的 误差 (errors-in-variables) 
问题 . 本 节 紧 跟 的 Carroll et al. (1995) 是 一 个 好 的 参考 文献 . 
10.1 中 的 有 向 图 描述 了 该 模型 . 忽略 误差 而 直接 把 Y 向 X* 回归 是 有 诱惑 
的 , 但 这 导致 r(z) 的 不 相合 估计 . 


Y= Xe KERRU 
图 10.1 有 测量 误差 的 回归 
被 图 出 的 X 显示 它 是 不 能 观测 的 . X* 是 X 的 噪声 版 本 如果 你 把 Y 往 X* 回 归 , 将 得 到 r(z) 的 不 相 
合 估计 . 
在 讨论 非 参 数 问题 之 前 ， 首先 考虑 这 个 问题 的 线性 回归 版 本 . 模型 为 
Yi = po + AXit a, 
X? =Xi+ Ui. 

令 oF = V(X), 并 假定 6 独立 于 X, 有 均值 0 和 方差 o2. 还 假定 U 独立 于 X, 

有 均值 0 和 方差 o2. 令 房 为 HX? 回归 所 得 的 B1 的 最 小 二 乘 估计 . 能 够 表明 
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( 见 练习 2) 
BES Abi, (10.1) 
这 里 ， 
o? 
A= aia <1. (10.2) 


这 样 , 测量 的 效果 把 估计 的 斜率 偏向 0. 这 样 的 一 个 效果 通常 称 为 衰减 偏 倚 (attenua- 
tion bias). Staudenmayer and Ruppert (2004) 表明 一 个 类 似 的 结果 对 非 参数 回归 成 
X. 如 果 利用 局 部 多 项 式 回归 (以 奇数 阶 的 多 项 式 ) 而 且 不 考虑 测量 误差 , 估计 量 


F(x) 渐 近 地 有 大 小 为 
2 [EO n r” (z) 
o2 [48 @+ | (10.3) 


的 过 渡 偏 倚 , 这 里 , /为 X 的 密度 . 

回 到 线性 情况 , 如 果 对 于 每 个 X AJLA X* 的 观测 值 , 那么 o2 能 够 被 估计 出 
来 . 否则 , o2 应 该 被 诸如 了 解 噪声 机 制 的 背景 知识 等 外 部 手段 来 估计 . 为 了 目的 ， 
将 假定 of 是 已 知 的 . 因为 o? = o2 + of, 能 够 通过 


2= 人 2 (10.4) 


来 估计 o2, XH, 52 为 X? 的 样本 方差 . 把 这 些 估计 代入 (10.2), 得 到 和 的 一 个 估 
it X= (63 -32)/62. Bı 的 一 个 估计 为 
a J 、 eg 
A= a = aoe (10.5) 
这 称 为 矩 估 计 方 法 (method of moments estimator). 细节 见 Fuller (1987). 
另外 一 个 纠正 衰减 偏 倚 的 方法 为 SIMEX, 其 含义 为 模拟 外 推 (simulation ex- 
trapolation), 源 于 Cook and Stefanski (1994), Stefanski and Cook (1995). 回忆 , 最 
小 二 乘 估 计 By 是 
Bioz 


o +o? 


的 相合 估计 . 生成 新 的 随机 变量 
Xi = Xi + Vous, 
这 里 , Ui ~ N(0,1). 由 Y: FX; 回归 所 得 的 最 小 二 乘 估计 是 


bioz 
oz + (1+ pog 


a) = (10.6) 
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的 相合 估计 . 重复 这 个 过 程 B 次 (这 里 B 很 大 ), 并 用 Aal) ABl) 表示 得 到 
的 估计 . 然后 定义 


es 
Xp) = 52 felo). 
b=1 
下 面 就 是 聪明 的 技巧 了 . 在 (10.6) PR p = -1, 看 到 Q(-1) = h; 它 是 想 估计 的 
量 . 思想 就 是 对 于 大 范围 的 p 的 值 , 如 0, 0.5, 1.0, 1.5, 2.0 等 , 计算 A). 然后 向 


后 外 推 曲线 Ao) 到 p = -1, ME 10.2. 为 了 作 此 外 推 , 利用 标准 非 线性 回归 拟 合 
Q(p) 的 值 到 曲线 


N 
GNV) =N + PE (10.7) 
一 旦 估计 了 那些 y, W 
Ba = G(-1;71, 72,73) (10.8) 
作为 61 的 纠正 的 估计 . WA (10.7) 是 不 方便 的 ; 经 常 只 用 二 次 函数 近似 G(p). 这 
FE, 拟 合 Alo) 的 值 到 曲线 


Ql 172073) =N +720 HBP, 
而 纠正 的 A 的 估计 为 


Br = Q(-15 71, 92,95) =h -P +75. 


a SIMEX tit 


A P 
图 10.2 在 SIMEX 方法 , 把 多 (p) 向 后 外 推 到 p = 一 1 
SIMEX 的 一 个 优点 为 它 很 容易 推广 到 非 参数 回归 . > F(x) 为 r(z) 的 一 个 未 
纠正 的 估计 , RAF Y: 到 X? 的 在 下 面 非 参数 问题 的 回归 : 
Y=r(Xi) + éi, 
X? =X; +U. 
现在 实行 SIMEX 算法 以 得 到 a(r, p), 并 且 定 义 纠正 的 估计 F(x) =l, -1). 剩 


下 的 问题 是 选择 光滑 参数 . 这 是 一 个 活跃 的 研究 领域 . 例如 , 可 参见 Staudenmayer 
and Ruppert (2004). 
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一 个 更 直接 的 处 理 测 量 误差 的 方法 是 由 Fan and Trung (1993) 建议 的 . 他 们 提 


出 了 核 估计 
Eee 
Falz) = a a (10.9) 
了 一 全; 
Er ( Ton ) 
这 里 ， 
1 f 1 -ez x(t) 
Kale) = 35 |e thay 


这 里 , px AB K 的 Fourier 变换 系数 , 而 ou 为 U 的 特征 函数 . 除了 将 在 本 节 后 
面 ((10.21) 之 后 ) 提 及 的 核 Ky, 有 些 不 寻常 之 外 , 这 是 一 个 标准 的 核 估计 . 

而 另 一 种 对 付 测量 误差 的 方法 源 于 Stefanski (1985), 其 想法 基于 当 n 增加 时 ， 
考虑 使 ou 一 0 的 渐 近 线 , 而 不 是 保持 ou 固定 . 应 用 Stefanski 的 “小 cu” 方法 于 
非 参数 回归 问题 , 记 未 纠正 的 估计 为 


F(x) = Tria XD), (10.10) 
i=1 
这 里 , 把 权重 写成 li(z, X$), 以 强调 对 X? 的 依赖 性 . 如 果 那 些 X; 已 经 被 观测 了 ， 
r 的 估计 应 为 


n 


T(z) = DYili(z, Xi). 


i=l 


在 Xi 附近 展开 li(z,X?), 有 


Falz) ~ a(x) + Yi(X? — Xi)e(a, Xi) 


{Do — X;)?e"(x, Xi). (10.11) 


取 期 望 , 可 以 看 到 , 由 于 测量 误差 的 过 度 偏 倚 (以 那些 X; 为 条 件 ) 为 
b(z) = a = r(Xi)e" (x, Xi). (10.12) 


能 够 用 


Bz) = = AXE, xX?) (10.13) 


i=l 
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来 估计 b(z). 这 产生 了 r 的 纠正 了 偏 倚 的 一 个 估计 , 即 
Fa (x) = Fala) — Hz) = Fa(z) — % Laan", x2); (10.14) 


这 个 估计 仍然 有 源 于 b(z) 的 估计 的 测量 误差 , 但 是 对 于 小 的 02, 它 比 元 , 的 偏 倚 要 
小 . 
现在 考虑 密度 估计 . 假定 
i Xi XnwF, 
XP=Xi4Uj, i=1,--,n, 


这 里 如 以 前 一 样 , X, 是 不 可 观测 的 . 想 要 估计 密度 f(e) = F'(z). X* 的 密度 为 
LE) = f H0)fole—s)as, (10.15) 
这 里 , fy 为 0 的 密度 估计 . 因为 fo 是 了 和 fo 的 卷 积 , 估计 f 的 问题 则 称 为 拆 卷 


积 (deconvolution). 

一 种 估计 了 的 方法 为 利用 Fourier RB. 令 y(t) = J ctz f(a)da 表示 X 的 
Fourier ieee (特征 函数 ), 并 且 类 似 地 定义 y* 和 wu. 因为 X。= X +U, 得 到 
v(t) = v(t)du(t), 因此 


= 
v(t) = ot) (10.16) 
如 果 P A f* 的 一 个 估计 , 那么 
` w= J ez (z)dz (10.17) 
Ay? 的 一 个 估计 . 由 Fourier 反 演 及 方程 (10.16)， 
A feir 1 feit YO ay 
f(z) = 去 /* ite ap(t)dt = zf ji wo" t. (10.18) 
它 意 味 着 估计 
和 = 去 oa t (10.19) 


特别 地 , 如 果 户 为 一 个 核 估计 ， 
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spe zX? 
= mak (==), (10.20) 
这 里 ， 
1 fotu VK) y 
K.(t,h) = zf. ed (10.21) 


而 且 wx AK K 的 Fourier 变换 . 方程 (10.20) 和 (10.21) 为 核 回 归 估计 (10.9) 的 
动机 . 


(10.20) 的 风险 为 
2 
E(Fr(y) — fly)? sent + h l Hri at, (10.22) 
这 里 ， | 
=3 [Proa [roa (10.23) 


注意 , du(t/h) 出 现在 (10.22) 的 分 母 ， 这 样 , 如果 vu (t/h) 有 注 尾 , 风险 将 会 大 . 
现在 当 fu 为 光滑 时 , wu(t/h) AWE. 这 意味 着 , 如 果 fy 光滑 , 收敛 率 则 惕 ， 具 
体 来 说 , WR fu 为 正 态 的 , 能 够 表明 最 好 的 收敛 率 为 O(1/ logn)?, 这 是 非常 慢 . 
Stefanski (1990) 给 出 了 出 乎 意料 的 结果 : 在 相当 一 般 的 条 件 下 , 不 依赖 于 f 的 最 优 
带宽 为 h = ou/ Vogn. 

在 这 些 渐 近 计算 中 , n 在 增加 , 而 oz2 = VU) 保持 固定 . 正如 早先 提 到 的 , 一 
个 更 加 现实 的 渐 近 计算 可 能 有 cz 趋 于 0. 这 种 方法 下 的 收敛 率 要 不 那么 令 人 失望 . 
小 ou 方法 提出 纠正 的 估计 为 


fate) - 2 Lae X, 


这 里 , fa 为 利用 那些 X? 的 , 天 真 的 未 纠正 核 估计 . 


10.2 % H 题 


一 类 非常 类 似 于 测量 误差 的 问题 为 逆 问 题 (inverse problem). 一 般 来 说 , 在 仅 给 
定 一 个 客体 的 部 分 信息 的 条 件 下 重建 该 客体 特征 的 问题 称 为 逆 问题 . 一 个 例子 是 ， 
在 已 给 一 个 对 象 的 两 维 切片 的 性 质 时 , 试图 估计 其 三 维 结构 . 这 在 某 些 类 型 的 医学 
诊断 上 很 常见 . 另 一 个 例子 是 重建 一 个 模糊 的 图 象 . 按照 O'Sullivan (1986) 给 出 一 
个 概要 . 
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在 回归 的 框架 上 , 逆 问 题 有 形式 
¥,=Ti(r) +6, i=1,---,n, (10.24) 
这 里 ,7 为 感 兴趣 的 回归 函数 , TT; 为 某 个 作用 在 r 上 的 算 子 . 本 节 将 要 始终 利用 的 
一 个 具体 的 例子 为 五 (r) = / Ki(s)r(s)ds, &#, K; 为 某 个 诸如 Ki(s) = e~ @-20/2 
的 光滑 函数 . 模型 成 为 


Y= [rores +6. (10.25) 
如 果 Ki 为 在 zi 的 一 个 delta 函数 , WA (10.25) 成 为 通常 的 非 参 数 回归 模型 Y; = 
r(zi) +e 把 / Kils)r(s)ds 看 成 7 的 模糊 版 本 . 有 两 种 类 型 的 信息 损失 : 噪声 c 
与 模糊 因素 . l 
假定 用 如 5.2 节 所 定义 的 那样 一 个 线性 光滑 器 估计 r: 


F(z) = > Yi6i(z). (10.26) 


i=l 


方差 和 未 弄 污 时 一 样 , 即 V(F,(x)) = 0? ae), 但 均值 有 不 同 的 形式 : 
i=1 


En =) 4&(x) | Ki ds = | A(z, s)ds, 
(Fn (2)) 5 z f (s)r(s)ds / as 
这 里 ， 
A(z,8) = >》 Gi(a)Ki(s) (10.27) 
i=1 
称 为 Backus-Gilbert 平均 核 (Backus-Gilbert averaging kernel). 
假定 ” 能 够 被 作为 在 某 个 基 1,… ,pr 上 的 一 个 展开 来 近似 ( 见 第 8 章 ), 即 
k 
7(z) = 76565 (2). BA, 
j=1 


k 
/ Ki(s)r(s)ds = J Ki(s) > 0;9;(s)ds = Z790, 


j=1 
这 里 ,9 = (01,…,9k)T 及 
/eds 
ue J: K;(s)ġ2(s)ds 


> 


J Kieyon(o)as 
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则 模型 (10.25) 可 以 写成 
Y =Z0+e, (10.28) « 


这 里 , Z 为 第 i 行 等 于 Z] W nx k ER, Y = (Yi, Yn)", 及 e= (61, €n). 
用 最 小 二 乘 估计 (ZT2Z)-12ZTY 来 估计 9 是 有 诱惑 力 的 . 但 这 可 能 失败 , 这 是 因为 ， 
ZTZ 一 般 是 不 可 逆 的 . 这 时 , 问题 称 为 显示 病态 的 (il-posed). 实际 上 , 这 是 逆 问 
题 的 一 个 特点 , 它 相应 于 即使 在 没有 噪声 的 情况 下 函数 > 也 不 能 被 恢复 的 事实 . 这 
是 因为 由 污染 而 造成 了 信息 损失 . 因而 , 通常 利用 一 个 规范 化 的 估计 , 如 6 = LY, 
这 里 


=(Z7Z4+AN712", 
这 里 ,了 是 单位 矩阵 ,和 > 0 为 一 个 可 以 被 交叉 验证 选择 的 光滑 参数 ， 应 该 注意 
Bl, 交叉 验证 是 估计 预测 误 关 >| [Kroas f Kis as) ,而 不 是 
[EO aj?as. 在 第 5 Re, 注意 到 这 两 种 损失 函数 本 质 上 是 相同 的 . 但 在 目前 的 


环境 下 这 不 再 是 对 的 . 理论 上 , 仍然 有 可 能 对 损失 f fr(s) -fs)j2ds 设计 一 个 交叉 
验证 估计 , 但 这 个 估计 可 能 很 不 稳定 . 


10.3” 非 参数 贝 叶 斯 


在 整 本 书 , 用 频率 派 的 方法 来 作 推断 ,仍然 可 能 用 贝 叶 斯 方法 .实际 上 , N 
叶 斯 非 参 数 推断 是 统计 及 机 器 学 习 中 的 一 个 兴旺 的 事业 . 好 的 参考 文献 包括 Ghosh 
and Ramamoorthi (2003), Dey et al. (1998), Walker (2004) 及 其 文献 索引 . 然而 , 这 
个 领域 太 大 , 而 且 发 展 太 快 , 以 至 于 无 法 在 这 里 讨论 . 

除了 已 经 提 到 的 之 外 , 有 关 文 献 的 一 个 小 样本 包括 Schwartz (1965)，Diaconis 
and Freedman (1986), Barron et al. (1999b), Ghosal et al. (1999), Walker and Hjort 
(2001), Hjort (2003), Ghosal et al. (2000), Shen and Wasserman (2001), Zhao (2000), 
Huang (2004), Cox (1993), Freedman (1999), McAuliffe et al. (2004), Teh et al. 
(2004), Blei et al. (2004), Blei and Jordan (2004) Wasserman (1998). 


10.4” 半 参数 推断 
正如 名 字 所 暗示 的 , 半 参 数 模型 (semiparametric models) 是 部 分 为 参数 , 部 分 


外 见 Wasserman (2004) 第 11 章 关于 贝 叶 斯 推断 优 缺 点 的 一 般 性 讨论 - 
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为 非 参数 的 模型 . 一 个 例子 是 有 下 面 形式 的 部 分 线性 回归 模型 : 
Y =6X+r(Z) +e, (10.29) 


这 里 , r 为 某 光 滑 函数 . 这 样 模型 的 理论 能 够 非常 复杂 . 例如 , 考虑 估计 (10.29) 中 
的 8. 一 个 策略 为 在 Xi 上 回归 Yi 一 Zi), KBR, 为 > 的 一 个 估计 . 在 适当 的 条 件 
F, 如 果 认 真 选 择 n, 这 将 导致 关于 8 的 好 估计 . 细节 请 看 Bickel et al. (1993) 和 
van der Vaart (1998) 第 25 章 . 


10.5 ”相关 的 误差 


如 果 在 模型 上 = r(zi) +e 中 的 误差 ¢ 是 相关 的 , 那么 通常 的 方法 会 失败 . A 
体 来 说 , 正 的 相关 能 够 使 得 诸如 交叉 验证 那样 的 方法 选择 非常 小 的 带宽 . 有 几 种 方 
法 对 付 相 关 . 在 修正 的 交叉 验证 (modified cross-validation) 中 , 不 除去 单独 观测 值 ， 
而 是 去 掉 观 测 值 的 组 . 在 分 划 交 叉 验 证 (partitioned cross-validation) 中 , 划分 数据 ， 
并 在 每 个 划分 区 利用 一 个 观测 值 来 构造 交叉 验证 ， 对 用 这 种 方式 得 到 的 估计 值 再 
进行 平均 . Chu and Marron (1991) 中 讨论 了 这 些 方法 的 性 质 . 关于 具有 相关 观测 
值 的 非 参 数 回归 方法 的 综述 能 够 在 Opsomer et al. (2001) 中 找到 . 


10.6 分 类 


在 分 类 问题 (classification problem) 中 , 有 数据 (X1, Y1), , (Xn, Ya), XE, Y; 
为 离散 的 . 想 要 发 现 一 个 函数 h, 使 得 给 定 一 个 新 的 X, 能 够 用 及 X) KN Y. 除 
了 两 点 之 外 这 就 像 是 回归 : (i) 输出 是 离散 的 ; (ii) 不 需要 很 好 地 估计 在 X 和 了 之 
间 的 关系 , 而 是 要 很 好 地 预测 . 

在 这 本 书 较 早 的 稿子 , 有 很 长 的 一 章 是 关于 分 类 的 . 整个 题目 如 此 之 大 , 它 本 
身 可 以 自 成 体 统 ; 决定 删 去 了 它 . 在 分 类 上 有 许多 好 书 , 如 Hastie et al. (2001). 在 
这 里 将 仅仅 作 几 个 简要 的 评论 . 

假定 Y; € {0,1} 为 二 分 的 . 一 个 分 类 器 是 一 个 函数 h, 它 把 每 个 z 投影 到 {0,1} 
之 中 . 对 于 分 类 常用 的 风险 函数 是 L(h) = P(Y 4 ACX)). 能 够 表明 , 称 为 贝 叶 斯 规 
则 (Bayes rule) 的 最 优 分 类 规则 为 


h(a) = 1, r(x) > 1/2, 
0, r(x) < 1/2, 


© 这 是 一 个 不 那么 好 的 术语 选择 . 贝 叶 斯 规则 和 贝 叶 斯 推断 没有 关系 . 实际 上 , 频率 派 或 贝 叶 斯 派 都 能 
用 贝 叶 斯 规则 h 来 估计 - 


\ 
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这 里 , r(z) = E(Y|X = z). 这 建议 了 一 个 自然 的 (不 是 不 寻常 的 ) 分 类 方法 .基于 
r(x) 的 一 个 估计 F(x), 用 
ila) = { 1, F(z) > 1/2, 
0, F(z) <1/2 


来 估计 h. 现在 , 如 果 A, 是 r 的 一 个 不 好 的 估计 , h 还 可 能 是 一 个 好 的 分 类 器 . 例 
如 , WR r(x) = 0.6, 而 F(x) = 0.9, 仍然 有 h(x) = A(x) =1. 


10.7 Sf 


筛 (sieve) 是 一 个 模型 序列 , 用 样本 量 n 来 编号 , 当 n oo 时 , 复杂 性 增加 . 一 
个 简单 的 例子 是 多 项 式 回归 , 那里 多 项 式 p(n) 的 最 大 阶 数 随 着 n 增加 选择 p(n) 
就 如 选择 带宽 : 在 偏 倚 和 方差 之 间 有 通常 的 平衡 . 

总 是 在 下 面 的 意义 上 非 正式 地 用 筛 : 当 有 更 多 的 数据 时 , 常常 拟 合 更 复杂 的 模 
型 . Grenander (1981), Geman and Hwang (1982) 把 得 的 思想 形式 化 . 从 此 产生 了 大 
量 的 文献 . 参见 Shen et al. (1999), Wong and Shen (1995), Shen and Wong (1994), 
Barron et al. (1999a), van de Geer (1995), Genovese and Wasserman (2000) 及 van 
de Geer (2000). 


10.8 限制 形状 的 推断 


在 有 形状 限制 时 , 对 一 个 曲线 有 可 能 做 出 相合 的 非 参数 推断 , 而 不 要 强加 光滑 
性 的 约束 . 一 个 典型 的 例子 是 当 > 是 单调 时 估计 一 个 回归 函数 7. 一 个 标准 的 参考 
文献 是 Robertson et al. (1988). 

假定 

Y; = r(z;) tei, t=1,---,n, 

这 里 , zı < … < zn, E(e) = 0 及 o? = E(e}). 再 假定 r 是 非 增 的 . (这 个 假定 能 够 
如 在 10.9 节 描 述 的 那样 来 检验 .) 最 小 二 乘 估计 a 是 由 解 下 面 的 带 约束 的 最 小 化 
问题 来 得 到 的 : 


Fn = arg min J [Yi —r(ai)]? 
i=1 
这 里 F, 为 非 增 函 数 . 得 到 的 估计 a 称 为 保 序 回归 估计 (isotonic regression estima- 
tor). 


i 
TIAI F HER AF Fa. & Po = (0,0) X Pj = (agm) . 令 Gt) ARAARA 


i=l 
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3 (greatest convex minorant), 这 意味 着 G(t) 为 在 点 PR,…, Pa 之 下 的 所 有 凸 函 数 
的 上 确 界 , BAA AG 的 左 导数 . 

凸 弱 函 数 G 能 够 利用 集中 邻近 违犯 者 (pooled adjacent violators, PAV) 算法 
迅速 找到 . 开始 时 , 用 线段 连接 所 有 的 点 Po, Pio- 如 果 在 Po 和 P, 之 间 的 斜率 
大 于 P 和 P, 之 间 的 斜率 , 那么 把 这 两 个 线段 用 Py 和 忆 之 间 的 一 个 线段 代替 . 
如 果 在 Po 和 Pi 之 间 的 斜率 大 于 P 和 Py 之 间 的 斜率 , 那么 把 这 两 个 线段 用 Po 
和 Ps 之 间 的 一 个 线段 代 蔡 . 继续 这 个 过 程 , 结果 得 到 C(t). 细节 参见 Robertson et 
al. (1988)8~10 页 . 

关于 得 到 的 估计 有 一 些 结果 . 例如 , Zhang (2002) 给 出 下 面 结果 . 如 果 
1/p 


Rastr) = | D Eae) -rao 
这 里 , 1 <p < 3, 那么 ， l 


nl/3 
FV ee Rn,p(T) < Mp + 0(1), (10.30) 
这 里 , V(r) Wor 的 总 变 差 , 而 Mp 为 常数 . 
Diimbgen (2003), Diimbgen and Johns (2004) 得 到 最 优 置信 带 . Hengartner and 
Stark (1995) 得 到 单调 密度 的 置信 带 . 


0.64 + o(1) < 
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本 书 集中 在 估计 和 置信 集 ， 还 有 大 量 的 文献 是 关于 检验 的 ， 许 多 结果 能 够 在 
Ingster and Suslina (2003) 的 专 论 中 找到 . 其 他 的 文献 包括 : Ingster (2002), Ingster 
(2001), Ingster and Suslina (2000), Ingster (1998), Ingster (1993a), Ingster (1993b), 
Ingster (1993c), Lepski and Spokoiny (1999) 及 Baraud (2002). 

例如 , 令 Yi = 0; + ei 这 里 , e ~ N(0,1), i=1,---,n RO = (01,-++,On) WH 
知 . 考虑 检验 


Ho: 0 = (0,---,0) X} Hı : 0 € Vn = {0 ER": ||4||, > Rn}, 


”这 里 , 对 于 0<p< oo, sa inf 
llall, = (È we) : 
一 个 检验 y 的 第 一 和 第 二 类 错误 为 j 
an(b) = Eo(W), Palt, 0) = Eel — 4). 
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ao int (an (0) + sup Pal o) 


为 在 所 有 检验 中 , 第 一 类 错误 和 第 二 类 错误 的 最 大 值 的 最 小 可 能 之 和 . Ingster 表明 
Rn 


m> = 了 一 oo k hnl > Bn 19, 


Ri Ra 


N 
m | n/P)-G/), pg2, 


ni/@p), p>2 


这 样 , R; 为 一 个 确定 什么 时 候 备 选 假设 为 可 识别 的 临界 率 . 像 这 样 的 结果 和 在 第 7 
章 的 置信 集 的 结果 有 着 密切 的 关系 . 

对 于 定性 假设 的 结果 有 不 同 的 性 质 . 像 这 类 假设 有 : f 是 单调 的 , / 是 正 的 , f 
是 凸 的 等 等 . 这 类 假设 的 确定 特征 为 它们 对 加 法 封闭 . 例如, 如 果 fA 9 为 单调 
非 增 函 数 , 那么 f + 9 还 是 单调 非 增 函 数 . 参考 文献 包括 : Diimbgen and Spokoiny 
(2001), Baraud et al. (2003a), Baraud et al. (2003b) 及 Juditsky ahd Nemirovski 
(2002). 考虑 检验 零 假设 : 回归 函数 r 是 非 增 的 . 进一步 假定 


r € {f : [0,1] > R : |r(x)—r(y)| < Lle — yl", 对 所 有 的 zye [0,1]}, 


这 里 , 工 >0 及 0 < s<1. 那 么 ,对 于 每 个 距离 零 假设 至 少 L/0+2)n-s/0+2) 阶 的 
函数 , 存在 有 一 致 大 势 的 检验 . 


10.10 计算 问题 


本 书 完全 略 去 了 关于 有 效率 计算 的 问题 . 非 参数 方法 对 于 大 数据 集 表现 最 好 ， 
但 施行 有 大 数据 集 的 非 参 数 方法 要 求 有 效率 的 计算 . 

装 箱 (binning) 方法 对 于 快速 计算 很 流行 可 参见 Hall and Wand (1996), Fan 
and Marron (1994), Wand (1994), Holmstrém (2000), Sain (2002) 及 Scott (1992). 
Loader (1999b) 的 第 12 章 包含 了 很 好 的 关于 计算 的 讨论 . 具体 来 说 ,那里 对 k- 


d tree 有 很 好 的 描述 , 它 很 聪明 地 选择 加 快 计算 的 数据 划分 。 利 用 k-q tree 于 


”统计 的 一 些 文献 可 以 在 http://www.autonlab.org 找到 ， 有 用 的 R 代码 能 够 在 
http://cran.r-project.org 找到 . Catherine Loader 开发 的 locfit 关于 局 部 似 
然 和 局 部 回归 程序 能 够 在 http://www.locfit.info 找到 . 
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10.11 & 习 


1. 考虑 “误差 在 Y” 的 模型 : 
=r(Xi) +a, 
Y =Y; +U, EU)=0, 


而 且 观 测 数据 为 (X1, Yr) (Xn, Yn). 观测 值 Ye 而 不 是 Y: 如 何 影响 估计 Pe)? 

2. 证 明 (10.1). 

3. 证 明 方 程 (10.20). 

4. 对 于 = 100, 抽取 Xi,- ++, Xn ~ N(0,1). 

(a) 利用 核 估计 来 估计 密度 . 

(b) 令 Wi = Xi 十 ouUi, 这 里 Ui ~ N(0,1). 从 那些 W: 计算 相关 的 和 不 相关 的 密度 估计 ， 
并 且 比 较 结果 . 试用 不 同 的 ou 的 值 

(c) 重复 (b), 但 令 Ui 有 一 个 Cauchy 分 布 . 

5. 从 下 面 模型 生成 1000 个 观测 值 : 


Yi=r(Xi) + oe, 
. Wi=Xi t+ oui, 


这 里 , r(x) = z + 3exp(—16z?), ci ~ N(0,1), Ui ~ N(0,1), Xi ~ Unif(-2,2), oe = 0.5 及 


ou = 0.1. 


(a) AURA (X1, Yi), (Xn, Yn) 来 估计 r. 利用 交叉 验证 找到 带宽 h. 称 结果 估计 


”为 成. 在 本 题 总 是 利用 带宽 及 


(b) 利用 核 回 归 从 (Wi 五 )……,(Wn, Yn) 来 估计 r. 表示 结果 估计 为 Pn- 

(c) 计算 由 (10.14) 给 出 的 纠正 的 估计 Fn- 

(d) EBE r, rh, Pns Fn- 

(e) 想 出 只 用 那些 Y; 和 Wi 来 找 出 好 的 带宽 的 一 种 方法 . 实施 你 的 方法 , 并 把 得 到 的 估计 
和 先前 的 估计 作 比 较 . 

6. 从 下 面 模型 生成 1000 个 观测 值 : 


Ye Jrs +06, 


这 里 ,r(z) = 2+3exp(—160”), ei ~ N(0, 1), 0 = 0.5, Ki(s) =e“ -20"/", 及 zi = 4(i/n) —2. 
ik b = 0.01, 0.1 #1. P 

(a) 对 于 几 个 z 值 画 出 Backus-Gilbert 平均 核 的 图 . 作出 解释 . 

(b) 利用 本 章 描述 的 方法 估计 7. 对 结果 作出 评论 . 

7. 考虑 第 7 ROARED ARS: 


Vibe, Fier 
n 


Fi 
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假定 0 = (01,92,…) 在 Sobolev WER © = (0 : 3702)? <P} 中 , 这里，c > 0. SERIN 


为 : 0, 独立 , 而 且 对 于 元 > 0, 0: ~ N(0,72). 
(a) 找到 0: 的 后 验 分 布 . 特别 地 找到 后 验 均值 人 
(b) 找到 在 7? 上 的 条 件 , 使 得 在 下 面 意义 上 后 验 分 布 相合 : 对 于 任意 < An 00 时 ， 
Pe(lle — Ol| > €) — 0. 


(c) 令 0; = 1/3". RB ( 取 n = 100) 模拟 数据 , 找到 后 验 分 布 , 并 找到 满足 P(||6 一 0|| < 
bn| 数 据 ) = 0.95 的 bn. 设 Bn = {0 € © : Ô -6|| < bn}. 重复 整个 过 程 许多 次 , 并 且 利用 
9 E Bn 的 频率 来 估计 By 的 频率 派 的 入 盖 率 (对 于 这 个 特殊 的 0). 报告 你 的 发 现 . 

(d) 对 9 = (0,0,---), EH (c). 


。 参考 文献 


AKAIKE, H. (1973). Information theory and an extension of the maximum 
likelihood principle. Second International Symposium on Information The- 
ory 267-281. 


BARAUD, Y. (2002). Nonasymptotic minimax rates of testing in signal de- 
tection. Bernoulli 8 577-606. 


BARAUD, Y. (2004). Confidence balls in Gaussian regression. The Annals of 
Statistics 32 528-551. 


BARAUD, Y., HUET, S. and LAURENT, B. (2003a). Adaptive tests of linear 
hypotheses by model selection. The Annals of Statistics 31 225-251. 


BARAUD, Y., HUET, S. and LAURENT, B. (2003b). Adaptive tests of quali- 
tative hypotheses. ESAIM P&S: Probability and Statistics 7 147-159. 


BARRON, A., BIRGE, L. and MASSART, P. (1999a). Risk bounds for model 
selection via penalization. Probability Theory and Related Fields 113 301- 
413. 


Barron, A., SCHERVISH, M. J. and WASSERMAN, L. (1999b). The consis- 
tency of posterior distributions in nonparametric problems. The Annals of 
Statistics 27 536-561. 


BELLMAN, R. (1961). Adaptive Control Processes. Princeton University Press. 
Princeton, NJ. 


BERAN, R. (2000). REACT scatterplot smoothers: Superefficiency through 
basis economy. Journal of the American Statistical Association 95 155-171. 


BERAN, R. and DUMBGEN, L. (1998). Modulation of estimators and confi- 
dence sets. The Annals of Statistics 26 1826-1856. 


BICKEL, P. J. and FREEDMAN, D. A. (1981). Some asymptotic theory for 
the bootstrap. The Annals of Statistics 9 1196-1217. 


+ 202 - 参考 文献 


BICKEL, P. J., KLAASSEN, C. A. J., RiTov, Y. and WELLNER, J. A. (1993). 
Efficient and adaptive estimation for semiparametric models. Johns Hop- 
kins University Press. Baltimore, MD. 


BLEI, D., GRIFFITHS, T., JORDAN, M. and TENEBAUM, J. (2004). Hier- 
archical topic models and the nested Chinese restaurant process. In S. 
Thrun, L. Saul, and B. Schoelkopf (Eds.), Advances in Neural Information 
Processing Systems (NIPS) 16, 2004. . 


Buel, D. and JORDAN, M. (2004). Variational methods for the dirichlet 
process, In Proceedings of the 21st International Conference on Machine 
Learning (ICML). Omnipress. 

BREIMAN, L., FRIEDMAN, J. H., OLSHEN, R. A. and STONE, C. J. (1984). 
Classification and regression trees. New York: Wadsworth. NY. 

Brown, L., Cal, T. and ZHOU, H. (2005). A root-unroot transform and 
wavelet block thresholding approach to adaptive density estimation. un- 
published . 


Brown, L. D. and Low, M. G. (1996). Asymptotic equivalence of nonpara- 
metric regression and white noise. The Annals of Statistics 24 2384-2398. 


Cat, T. and Low, M. (2005). Adaptive confidence balls. To appear: The 
Annals of Statistics . 

Cal, T., Low, M. and ZHAO, L. (2000). Sharp adaptive estimation by a 
blockwise method. Technical report, Wharton School, University of Penn- 
sylvania, Philadelphia . 

CARROLL, R., RUPPERT, D. and STEFANSKI, L. (1995). Measurement Error 
in Nonlinear Models.New York: Chapman and Hall. NY. 

CASELLA, G. and BERGER, R. L. (2002). Statistical Inference. New York: 
Duxbury Press. NY. 


CenCov, N. (1962). Evaluation of an unknown distribution density from 
observations. Doklady 3 1559-1562. 


CHAUDHURI, P. and MARRON, J. S. (1999). Sizer for exploration of structures 
in curves. Journal of the American Statistical Association 94 807-823. 


CHAUDHURI, P. and MARRON, J. S. (2000). Scale space view of curve esti- 


参考 文献 + 203- 


mation. The Annals of Statistics 28 408-428. 


CHEN, S. S., DoNoHO, D. L. and SAUNDERS, M. A. (1998). Atomic de- 
composition by basis pursuit. SIAM Journal on Scientific Computing 20 
33-61. 


CHEN, S. X. and Qin, Y. S. (2000). Empirical likelihood confidence intervals 
for local linear smoothers. Biometrika 87 946-953. 


CHEN, S. X. and Qin, Y. S. (2002). Confidence intervals based on local 
linear smoother. Scandinavian Journal of Statistics 29 89-99. 


Cru, C.-K. and Marron, J. S. (1991). Comparison of two bandwidth 
selectors with dependent errors. The Annals of Statistics 19 1906-1918. 


CLAESKENS, G. and HJORT, N. (2004). Goodness-of-fit via nonparametric 
likelihood ratios. Scandinavian Journal of Statistics 31 487-513. 


Cook, J. R. and STEFANSKI, L. A. (1994). Simulation-extrapolation esti- 
mation in parametric measurement error models. Journal of the American 
Statistical Association 89 1314-1328. 


Cox, D. and Lewis, P. (1966). The Statistical Analysis of Series of Events. 
New York: Chapman and Hall. NY. 

Cox, D. D. (1993). An analysis of Bayesian inference for nonparametric 
regression. The Annals of Statistics 21 903-923. 


Cummins, D. J., FILLoon, T. G. and Nycuka, D. (2001). Confidence in- 
tervals for nonparametric curve estimates: Toward more uniform pointwise 
coverage. Journal of the American Statistical Association 96 233-246. 


DAUBECHIES, I. (1992). Ten Lectures on Wavelets. SIAM. New York, NY. 
Davison, A. C. and HINKLEY, D. V. (1997). Bootstrap Methods and Their 
Application. Cambridge University Press. Cambridge. 


DEVROYE, L., GyOrri, L. and Lucosi, G. (1996). A Probabilistic Theory 
of Pattern Recognition. Springer-Verlag. New York, NY. 


Dey, D., MULLER, P. and SINHA, D. (1998). Practical Nonparametric and 
Semiparametric Bayesian Statistics. Springer-Verlag. New York, NY. 


Diaconis, P. and FREEDMAN, D. (1986). On inconsistent Bayes estimates 


+ 204+ 参考 文献 


of location. The Annals of Statistics 14 68-87. 


Donono, D. L. and JOHNSTONE, I. M. (1994). Ideal spatial adaptation by 
wavelet shrinkage. Biometrika 81 425-455. 


DoNoHO, D. L. and JOHNSTONE, I. M. (1995). Adapting to unknown 
smoothness via wavelet shrinkage. Journal of the American Statistical As- 
sociation 90 1200-1224. 


Donoxo, D. L. and JOHNSTONE, I. M. (1998). Minimax estimation via 
wavelet shrinkage. The Annals of Statistics 26 879-921. 


Donono, D. L., JOHNSTONE, I. M., KERKYACHARIAN, G. and PICARD, D. 
(1995). Wavelet shrinkage: Asymptopia? Journal of the Royal Statistical 
Society, Series B, Methodological 57 301-337. 


DÜMBGEN, L. (2003). Optimal confidence bands for shape-restricted curves. 
Bernoulli 9 423-449. 


DUMBGEN, L. and JOHNS, R. (2004). Confidence bands for isotonic median 
curves using sign-tests. Journal of Computational and Graphical Statistics 
13 519-533. 


DÜMBGEN, L. and SPOKOINY, V. G. (2001). Multiscale testing of qualitative 
hypotheses. The Annals of Statistics 29 124-152. 


EFROMOVICH, S. (1999). Nonparametric Curve Estimation: Methods, Theory 
and Applications. Springer-Verlag. New York, NY. 


EFROMOVICH, S. Y. and PINSKER, M. S. (1982). Estimation of square- 
integrable probability density of a random variable. Problems of Informa- 
tion Transmission, (Transl of Problemy Peredachi Informatsii) 18 175-189. 


EFROMOVICH, S. Y. and PINSKER, M. S. (1984). A learning algorithm for 
nonparametric filtering. Automat. i Telemekh 11 58-65. 


EFRON, B. (1979). Bootstrap methods: Another look at the jackknife. The 
Annals of Statistics 7 1-26. 


Erron, B., HASTIE, T., JOHNSTONE, I. and TIBSHIRANI, R. (2004). Least 
angle regression. The Annals of Statistics 32 407-499. 


EFRON, B. and TIBSHIRANI, R. J. (1993). An Introduction to the Bootstrap. 
Chapman and Hall. New York, NY. 


Fan, J. (1992). Design-adaptive nonparametric regression. Journal of the 


参考 文献 + 205 - 


American Statistical Association 87 998-1004. 


Fan, J. and G1JBELS, I. (1995). Data-driven bandwidth selection in local 
polynomial fitting: Variable bandwidth and spatial adaptation. Journal of 
the Royal Statistical Society, Series B, Methodological 57 371-394. 


Fan, J. and GIJBELS, I. (1996). Local Polynomial Modelling and Its Appli- 
cations. Chapman and Hall. New York, NY. 


Fan, J. and Marron, J. S. (1994). Fast implementations of nonparametric 
curve estimators. Journal of Computational and Graphical Statistics 3 35- 
56. 


Fan, J. and TRUONG, Y. K. (1993). Nonparametric regression with errors 
in variables. The Annals of Statistics 21 1900-1925. 


Faraway, J. J. (1990). Bootstrap selection of bandwidth and confidence 
bands for nonparametric regression. Journal of Statistical Computation 
and Simulation 37 37-44. 


Faraway, J. J. and Sun, J. (1995). Simultaneous confidence bands for linear 
regression with heteroscedastic errors. Journal of the American Statistical 
Association 90 1094-1098. 


FERNHOLZ, L. T. (1983). Von Mises’ Calculus for Statistical Functionals: 
Springer-Verlag. New York, NY. 


FREEDMAN, D. (1999). Wald lecture: On the Bernstein-von Mises theorem 
with infinite-dimensional parameters. The Annals of Statistics 27 1119- 
1141. 


FRIEDMAN, J. H. (1991). Multivariate adaptive regression splines. The An- 
nals of Statistics 19 1-67. 


FRIEDMAN, J. H. and STUETZLE, W. (1981). Projection pursuit regression. 
Journal of the American Statistical Association 76 817-823. 


FULLER, W. A. (1987). Measurement Error Models. John Wiley. New York, 
NY. 


Gao, F., WAHBA, G., KLEIN, R. and KLEIN, B. (2001). Smoothing spline 
ANOVA for multivariate Bernoulli observations with application to ophthal- 
mology data. Journal of the American Statistical Association 96 127-160. 


+ 206 + 参考 文献 


Gasser, T., SROKA, L. and JENNEN-STEINMETZ, C. (1986). Residual vari- 
ance and residual pattern in nonlinear regression. Biometrika 73 625-633. 


GEMAN, S. and HWANG, C.-R. (1982). Nonparametric maximum likelihood 
estimation by the method of sieves. The Annals of Statistics 10 401-414. 


GENOVESE, C., MILLER, C., NICHOL, R., ARJUNWADKAR, M. and WASSER- 
MAN, L. (2004). Nonparametric inference for the cosmic microwave back- 
ground. Statistical Science 19 308-321. 


GENOVESE, C. and WASSERMAN, L. (2005). Nonparametric confidence sets 
for wavelet regression. Annals of Statistics 33 698-729. 


GENOVESE, C. R. and WASSERMAN, L. (2000). Rates of convergence for the 
Gaussian mixture sieve. The Annals of Statistics 28 1105-1127. 


GHOSAL, S., GHOSH, J. K. and RAMAMOORTHI, R. V. (1999). Posterior 
consistency of Dirichlet mixtures in density estimation. The Annals of 
Statistics 27 143-158. 


GHOSAL, S., GHOSH, J. K. and VAN DER VAART, A. W. (2000). Conver- 
gence rates of posterior distributions. The Annals of Statistics 28 500-531. 


GHOSH, J. and RAMAMOORTHI, R. (2003). Bayesian Nonparametrics. 
Springer-Verlag. New York, NY. 


GLAD, I., Horr, N. and USHAKOV，N. (2003). Correction of density es- 
timators that are not densities. Scandinavian Journal of Statististics 30 
415-427. 


GOLDENSHLUGER, A. and NEMIROVSKI, A. (1997). On spatially adaptive 
estimation of nonparametric regression. Mathematical Methods of Statistics 
6 135-170. s 

GREEN, P. J. and SILVERMAN, B. W. (1994). Nonparametric regression 
and generalized linear models: a roughness penalty approach. Chapman and 
Hall. New York, NY. 


GRENANDER, U. (1981). Abstract Inference. John Wiley. New York, NY. 


HALL, P. (1987). On Kullback-Leibler loss and density estimation. The 
Annals of Statistics 15 1491-1519. 


HALL, P. (1992a). The Bootstrap and Edgeworth Expansion. Springer-Verlag. 


参考 文献 + 207 


New York, NY. 


HALL, P. (1992b). On bootstrap confidence intervals in nonparametric re- 
gression. The Annals of Statistics 20 695-711. 


HALL, P. (1993). On Edgeworth expansion and bootstrap confidence bands 
in nonparametric curve estimation. Journal of the Royal Statistical Society, 
Series B, Methodological 55 291-304. 


HALL, P. and WAND, M. P. (1996). On the accuracy of binned kernel density 
estimators. Journal of Multivariate Analysis 56 165-184. 


HARDLE, W. (1990). Applied Nonparametric Regression. Cambridge Univer- 
sity Press. Cambridge. 


HARDLE, W. and Bowman, A. W. (1988). Bootstrapping in nonparametric 
regression: Local adaptive smoothing and confidence bands. Journal of the 
American Statistical Association 83 102-110. 


HARDLE, W., HALL, P. and MARRON, J. S. (1988). How far are automati- 
cally chosen regression smoothing parameters from their optimum? Journal 
of the American Statistical Association 83 86-95. 


HARDLE, W., KERKYACHARIAN, G., PICARD, D. and TSYBAKOV, A. (1998). 
Wavelets, Approximation, and Statistical Applications. Springer-Verlag. 
New York, NY. 


HARDLE, W. and MAMMEN, E. (1993). Comparing nonparametric versus 
parametric regression fits. The Annals of Statistics 21 1926-1947. 


HARDLE, W. and Marron, J. S. (1991). Bootstrap simultaneous error bars 
for nonparametric regression. The Annals of Statistics 19 778-796. 


Hastie, T. and LOADER, C. (1993). Local regression: Automatic kernel 
carpentry. Statistical Science 8 120-129. 


Hastie, T. and TIBsHIRANI, R. (1999). Generalized Additive Models. Chap- 
man and Hall. New York, NY. 


HASTIE, T., TIBSHIRANI, R. and FRIEDMAN, J. H. (2001). The Elements 
of Statistical Learning: Data Mining, Inference, and Prediction. Springer- 
Verlag. New York, NY. 


HENGARTNER, N. W. and STARK, P. B. (1995). Finite-sample confidence 
envelopes for shape-restricted densities. The Annals of Statistics 23 525~ 


+ 208 - 参考 文献 


550. 


HJORT, N. (1999). Towards semiparametric bandwidth selectors for kernel 
density estimation. Statistical Research Report. Department of Mathemat- 
ics, University of Oslo . 


Huort, N. (2003). Topics in nonparametric Bayesian statistics. In Highly 
Structured Stochastic Systems. P. Green, N.L. Hjort, S. Richardson (Eds.). 
Oxford University Press. Oxford. 


Hiort, N. L. and Jones, M. C. (1996). Locally parametric nonparametric 
density estimation. The Annals of Statistics 24 1619-1647. 


HOLMSTRÖM, L. (2000). The accuracy and the computational complexity 
of a multivariate binned kernel density estimator. Journal of Multivariate 
Analysis 72 264-309. 


HOTELLING, H. (1939). Tubes and spheres in n-spaces, and a class of statis- 
tical problems. American Journal of Mathematics 61 440-460. 


HUANG, T.-M. (2004). Convergence rates for posterior distributions and 
adaptive estimation. The Annals of Statistics 32 1556-1593. 


IBRAGIMOV, I. A. and HAS’MINSKII, R. Z. (1977). On the estimation of an 
infinite-dimensional parameter in Gaussian white noise. Soviet Math. Dokl. 
236 1053-1055. 


INGSTER, Y. and SusLINA, I. (2003). Nonparametric Goodness-of-Fit Testing 
Under Gaussian Models. Springer-Verlag. New York, NY. 


INGSTER, Y. I. (1993a). Asymptotically minimax hypothesis testing for non- 
parametric alternatives. I. Mathematical Methods of Statistics 2 85-114. 


INGSTER, Y. I. (1993b). Asymptotically minimax hypothesis testing for non- 
parametric alternatives. II. Mathematical Methods of Statistics 2 171-189. 


INGSTER, Y. I. (1993c). Asymptotically minimax hypothesis testing for non- 
parametric alternatives, III. Mathematical Methods of Statistics 2 249-268. 


INGSTER, Y. I. (1998). Minimax detection of a signal for /"-balls. Mathe- 
matical Methods of Statistics 7 401-428. 


INGSTER, Y. I. (2001). Adaptive detection of a signal of growing dimension. 
I. Mathematical Methods of Statistics 10 395-421. 


参考 文献 + 209- 


IncsTER, Y. I. (2002). Adaptive detection of a signal of growing dimension. 
II. Mathematical Methods of Statistics 11 37-68. 


IncsTER, Y. I. and SUSLINA, I. A. (2000). Minimax nonparametric hypoth- 
esis testing for ellipsoids and Besov bodies. ESAIM P&S: Probability and 
Statistics 4 53-135. 


JANG, W., GENOVESE, C. and WASSERMAN, L. (2004). Nonparametric con- 
fidence sets for densities. Technical Report, Carnegie Mellon University, 
Pittsburgh. 


JOHNSTONE, 1. (2003). Function Estimation in Gaussian Noise: Sequence 
Models. Unpublished manuscript. 


JUDITSKY, A. and LAMBERT-LACROIX, S. (2003). Nonparametric confidence 
set estimation. Mathematical Methods of Statistics 19 410-428. 


JupiTsky, A. and NEMIROVSKI, A. (2002). On nonparametric tests of posi- 
tivity /monotonicity/convexity. The Annals of Statistics 30 498-527. 


LepPsKI1, O. (1999). How to improve the accuracy of estimation. Mathematical 
Methods in Statistics 8 441-486. 


Lepski, O. V., MAMMEN, E. and SPOKOINY, V. G. (1997). Optimal spatial 
adaptation to inhomogeneous smoothness: An approach based on kernel 
estimates with variable bandwidth selectors. The Annals of Statistics 25 
929-947. 


LEPSKI, O. V. and SPOKOINY, V. G. (1999). Minimax nonparametric hy- 
pothesis testing: The case of an inhomogeneous alternative. Bernoulli 5 
333-358. 


Lepskil, O. V. (1991). On a problem of adaptive estimation in Gaussian 
white noise. Theory of Probability and Its Applications (Transl of Teorija 
Verojatnostei i ee Primenenija) 35 454-466. 


Li, K.-C. (1989). Honest confidence regions for nonparametric regression. 
The Annals of Statistics 17 1001-1008. 


Lin, X., WAHBA, G., XIANG, D., Gao, F., KLEIN, R. and KLEIN, B. (2000). 
Smoothing spline ANOVA models for large data sets with Bernoulli obser- 
vations and the randomized GACV. The Annals of Statistics 28 1570-1600. 


+ 210+ 参考 文献 


Lin, Y. (2000). Tensor product space ANOVA models. The Annals of Statis- 
tics 28 734-755. 


LOADER, C. (1999a). Local Regression and Likelihood. Springer-Verlag. New 
York, NY. 


LOADER, C. R. (1999b). Bandwidth selection: classical or plug-in? The 
Annals of Statistics 27 415-438. 


Low, M. G. (1997). On nonparametric confidence intervals. The Annals of 
Statistics 25 2547-2554. 


MALLows, C: L. (1973). Some comments on Cp. Technometrics 15 661-675. 


MAMMEN, E. and VAN DE GEER, S. (1997). Locally adaptive regression 
splines. The Annals of Statistics 25 387-413. 


Marron, J. S. and WAND, M. P. (1992). Exact mean integrated squared 
error. The Annals of Statistics 20 712-736. 


MCAULIFFE, J., BLEI, D. and JORDAN, M. (2004). Variational inference for 
Dirichlet process miztures. Department of Statistics, University of Califor- 
nia, Berkeley. 


MCCULLAGH, P. and NELDER, J. A. (1999). Generalized linear models. 
Chapman and Hall. New York, NY. 


MORGAN, J. N. and Sonquist, J. A. (1963). Problems in the analysis of 
survey data, and a proposal. Journal of the American Statistical Association 
58 415-434. 


MÜLLER, H.-G. and STADTMLLER, U. (1987). Variable bandwidth kernel 
estimators of regression curves. The Annals of Statistics 15 182-201. 


Naiman, D. Q. (1990). Volumes of tubular neighborhoods of spherical poly- 
hedra and statistical inference. The Annals of Statistics 18 685-716. 


NEUMANN, M. H. (1995). Automatic bandwidth choice and confidence inter- 
vals in nonparametric regression. The Annals of Statistics 23 1937-1959. 


NEUMANN, M. H. and POLZEHL, J. (1998). Simultaneous bootstrap confi- 
dence bands in nonparametric regression. Journal of Nonparametric Statis- 
tics 9 307-333. 


参考 文献 ` "21 


NussBAUM, M. (1985). Spline smoothing in regression models and asymptotic 
efficiency in L2. The Annals of Statistics 13 984-997. 


NussBAUM，M. (1996a). Asymptotic equivalence of density estimation and 
Gaussian white noise. The Annals of Statistics 24 2399-2430. 


NussBAUM, M. (1996b). The Pinsker bound: A review. In Encyclopedia of 
Statistical Sciences (S. Kotz, Ed). Wiley. New York, NY. 


NYCHKA, D. (1988). Bayesian confidence intervals for smoothing splines. 
Journal of the American Statistical Association 83 1134-1143. 


OGDEN, R. T. (1997). Essential Wavelets for Statistical Applications and 
Data Analysis. Birkhauser. Boston, MA. 


OPSOMER, J., WANG, Y. and YANG, Y. (2001). Nonparametric regression 
with correlated errors. Statistical Science 16 134-153. 


O'SULLIVAN, F. (1986). A statistical perspective on ill-posed inverse prob- 
lems. Statistical Science 1 502-527. 


PAGANO, M. and GAUVREAU, K. (1993). Principles of biostatistics. Duxbury 
Press. New York, NY. 


PARZEN, E. (1962). On estimation of a probability density function and mode. 
The Annals of Mathematical Statistics 33 1065-1076. 


PicARD, D. and TRIBOULEY, K. (2000). Adaptive confidence interval for 
pointwise curve estimation. The Annals of Statistics 28 298-335. 


QUENOUILLE, M. (1949). Approximate tests of correlation in time series. 
Journal of the Royal Statistical Society B 11 18-84. 


Rice, J. (1984). Bandwidth choice for nonparametric regression. The Annals 
of Statistics 12 1215-1230. ` 


Rice, S. (1939). The distribution of the maxima of a random curve. American 
Journal of Mathematics 61 409-416. 

ROBERTSON, T., WRIGHT, F. T. and DYKSTRA, R. (1988). Order restricted 
statistical inference. Wiley. New York, NY. 


ROBINS, J. and VAN DER VAART, A. (2005). Adaptive nonparametric confi- 
dence sets. To appear: The Annals of Statistics. 


- 212 . 参考 文献 


ROSENBLATT, M. (1956). Remarks on some nonparametric estimates of a 
density function. Annals of Mathematical Statistics 27 832-837. 


RUDEMO, M. (1982). Empirical choice of histograms and kernel density esti- 
mators. Scandinavian Journal of Statistics 9 65-78. 


Ruppert, D. (1997). Empirical-bias bandwidths for local polynomial non- 
parametric regression and density estimation. Journal of the American 
Statistical Association 92 1049-1062. 


Ruppert, D., WAND, M. and CARROLL, R. (2003). Semiparametric Regres- 
sion. Cambridge University Press. Cambridge. 


RUPPERT, D. and WAND, M. P. (1994). Multivariate locally weighted least 
squares regression. The Annals of Statistics 22 1346-1370. 


SAIN, S. R. (2002). Multivariate locally adaptive density estimation. Com- 
putational Statistics and Data Analysis 39 165-186. 


SCHEFFE, H. (1959). The Analysis of Variance. Wiley. New York, NY. 


Scuwartz, L. (1965). On Bayes procedures. Zeitschrift fiir Wahrschein- 
lichkeitstheorie und Verwandte Gebiete 4 10-26. 


Scuwarz, G. (1978). Estimating the dimension of a model. The Annals of 
Statistics 6 461-464. 


Scort, D. W. (1992). Multivariate Density Estimation: Theory, Practice, 
and Visualization. Wiley. New York, NY. 


SERFLING, R. J. (1980). Approximation Theorems of Mathematical Statistics. 
Wiley. New York, NY. 


Suao, J. and Tu, D. (1995). The Jackknife and Bootstrap. Springer-Verlag. 
New York, NY. 


Suen, X., Sui, J. and Wonc, W. H. (1999). Random sieve likelihood and 
general regression models. Journal of the American Statistical Association 
94 835-846. 

SHEN, X. and WASSERMAN, L. (2001). Rates of convergence of posterior 
distributions. The Annals of Statistics 29 687-714. 


SHEN, X. and Wong, W. H. (1994). Convergence rate of sieve estimates. 
The Annals of Statistics 22 580-615. 


参考 文献 + 213+ 


Sicrist, M. E. (1994). Air Monitoring by Spectroscopic Techniques. Wiley. 
New York, NY. 


SILVERMAN, B. W. (1984). Spline smoothing: The equivalent variable kernel 
method. The Annals of Statistics 12 898-916. 


SILVERMAN, B. W. (1986). Density Estimation for Statistics and Data Anal- 
ysis. Chapman and Hall. New York, NY. 


Simonorr, J. S. (1996). Smoothing Methods in Statistics. Springer-Verlag. 
New York, NY. 


SINGH, K. (1981). On the asymptotic accuracy of Efron’s bootstrap. The 
Annals of Statistics 9 1187-1195. 


STAUDENMAYER, J. and RUPPERT, D. (2004). Local polynomial regression 
and simulation-extrapolation. Journal of the Royal Statistical Society Se- 
ries B 66 17-30. 


STEFANSKI, L. A. (1985). The effects of measurement error on parameter 
estimation. Biometrika 72 583-592. 


STEFANSKI, L. A. (1990). Rates of convergence of some estimators in a class 
of deconvolution problems. Statistics and Probability Letters 9 229-235. 


STEFANSKI, L. A. and Cook, J. R. (1995). Simulation-extrapolation: The 
measurement error jackknife. Journal of the American Statistical Associa- 
tion 90 1247-1256. 


STEIN, C. M. (1981). Estimation of the mean of a multivariate normal dis- 
tribution. The Annals of Statistics 9 1135-1151. 


Stone, C. J. (1984). An asymptotically optimal window selection rule for 
kernel density estimates. The Annals of Statistics 12 1285-1297. 


Sun, J. and LOADER, C. R. (1994). Simultaneous confidence bands for linear 
regression and smoothing. The Annals of Statistics 22 1328-1345. 


Tex, Y., JORDAN, M., BEAL, M. and BLEI, D. (2004). Hierarchical dirich- 
let processes. In Technical Report. Department of Statistics, University of 
California, Berkeley. 


TIBSHIRANI, R. (1996). Regression shrinkage and selection via the lasso. 


“214 . 参考 文献 


Journal of the Royal Statistical Society, Series B, Methodological 58 267- 
288. 


Tukey, J. (1958). Bias and confidence in not quite large samples. The Annals 
of Mathematical Statistics 29 614. 


VAN DE GEER, S. (1995). The method of sieves and minimum contrast esti- 
mators. Mathematical Methods of Statistics 4 20-38. 


VAN DE GEER, S. A. (2000). Empirical Processes in M-Estimation. Cam- 
bridge University Press. Cambridge. 


VAN DER VAART, A. W. (1998). Asymptotic Statistics. Cambridge University 
Press. 


VAN DER VAART, A. W. and WELLNER, J. A. (1996). Weak Convergence 
and Empirical Processes: With Applications to Statistics. Springer-Verlag. 


VENABLES, W. N. and RiPLEY, B. D. (2002). Modern Applied Statistics 
with S. Springer-Verlag. New York, NY. 


WAHBA, G. (1983). Bayesian “confidence intervals” for the cross-validated 
smoothing spline. Journal of the Royal Statistical Society, Series B, Method- 
ological 45 133-150. 


Wausa, G. (1990). Spline models for observational data. SIAM. New York, 
NY. 


WAHBA, G., WANG, Y., Gu, C., KLEIN, R. and KLEIN, B. (1995). Smooth- 
ing spline ANOVA for exponential families, with application to the Wiscon- 
sin Epidemiological Study of Diabetic Retinopathy. The Annals of Statistics 
23 1865-1895. 


WALKER, S. (2004). Modern Bayesian asymptotics. Statistical Science 19 
111-117. 


WALKER, S. and HJORT, N. L. (2001). On Bayesian consistency. Journal of 
the Royal Statistical Society, Series B, Methodological 63 811-821. 


Wanb, M. P. (1994). Fast computation of multivariate kernel estimators. 
Journal of Computational and Graphical Statistics 3 433-445. 


WASSERMAN, L. (1998). Asymptotic properties of nonparametric Bayesian 


参考 文献 + 215+ 


procedures. In Practical Nonparametric and Semiparametric Bayesian 
Statistics. Springer-Verlag. New York, NY. 


WASSERMAN, L. (2000). Bayesian model selection and model averaging. Jour- 
nal of Mathematical Psychology 44 92-107. 


WASSERMAN, L. (2004). All of Statistics: A Concise Course in Statistical 
Inference. Springer-Verlag. New York, NY. ` 


WEISBERG, S. (1985). Applied Linear Regression. Wiley. New York, NY. 


Wong, W. H. and SHEN, X. (1995). Probability inequalities for likelihood 
ratios and convergence rates of sieve MLEs. The Annals of Statistics 23 
339-362. 


“Yu, K. and Jones, M. (2004). Likelihood-based local linear estimation of 
the conditional variance function. Journal of the American Statistical As- 
sociation 99 139-144. 


ZHANG, C.-H. (2002). Risk bounds in isotonic regression. The Annals of 
Statistics 2 528 — 555. 


ZHANG, P. (1991). Variable selection in nonparametric regression with con- 
tinuous covariates. The Annals of Statistics 19 1869-1882. 


ZHAO, L. H. (2000). Bayesian aspects of some nonparametric problems. The 
Annals of Statistics 28 532-552. 


2a 

E(X) = J zdF(z) 
V(X) 
Cov(X,Y) 

E 

Zn = 0(an) 
in = O(Gn) 
Xn = op(an) 
Xn = Op(an) 
T(F) 

Ln(0) 


实数 

事件 4 的 概率 

累积 分 布 函数 

概率 密度 (或 质量 ) 函数 

X 有 分 布 F 

X 有 密度 为 f 的 分 布 

X AY 有 同样 的 分 布 
独立 同 分 布 

KA F 的 样本 量 为 n 的 IID 样本 
标准 正 态 概率 密度 
标准 正 态 分 布 函数 

N(0,1) 上 a 分 位 数 : za = $-!1(1 一 a) 
随机 变量 X 的 期 望 值 (均值 ) 


随机 变量 X 的 方差 

XAY 的 协 方差 

依 概率 收敛 

依 分 布 收敛 

zn/an 一 0 

对 大 的 n, |zn/an| 有 界 
Xn/an Bo 

对 大 的 n, |Xn/an| 依 概率 有 界 
统计 泛 函 (如 均值 ) 

似 然 函数 


Gs) (=) 7 
Ja\ T z 
sa gengp m 
$ ? 
Wak f: kJ 
e< caer) a 
I - a a a 
iy (itga S z 1 
3 (te T) + (Tg +)e(9 +) (iaa 
ye ge 1-0? — Dı- PIO 
0>) (5°) G+) (gojeg 
人 ON 
an>) yz-at-oz (go)eumeD 
I zg d 
[5 +2 ha g/z-? (g)renuauodxg 
gtz? id 22 RA 
o 
uoo. 5 G02- N 
i waa 
ad z (»—9)/Q>2>)r aaja 
E % ef 
(a Do > DD oa (xJuossiog 
£ z 
ul(@— 1) +34] TEs (a)opeuosD 
(4-1) +4 z-uld — 1)ad(u) (d*u)pepmomg 
m ò s= (Dnoueg 
Fon ead 
ELA I pene 
BR WA Add = ue 


英 译 汉 索引 


A 


adaptive estimation (适应 性 估计 ), 128 
adaptive inference (适应 性 推断 ), 93 
averaging kernel (适应 性 核 ), 193 
adaptive kernel (适应 性 核 ), 110 

additive model (可 加 模型 ), 41, 84 
adjusted percentile methods (调整 的 

分 位 数 方法 ), 28 

AIC, 150 

all possible subests (所 有 可 能 子 集 ), 123 
almost sure convergence (几乎 处 处 收敛), 3 
attenuation bias (衰减 偏 倚 ), 188 
average coverage (平均 覆盖 率 ), 76 
average mean squared error (平均 的 均 方 
误差 ), 42 

averaging kernel (平均 和 ), 193 
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backfitting (回转 拟 合 ), 83 
Backus-Gilbert averaging kernel (Backus- 
Gilbert 平均 核 ), 193 

bandwidth (带宽 ), 58, 102, 105 

Baraud, 131, 197 

Bart Simpson, 100, 101, 112, 115 

basis ( 基 ), 117 

basis pursuit ( 基 寻 踪 ), 177 

Bayes rule ( 贝 叶 斯 规则 ), 195 
Beran-Diimbgen-Stein pivotal method 
(Beran-Diimbgen-Stein 枢 轴 方法 ), 135 
Bernstein's inequality (Bernstein 不 等 式 ), 8 
Besov seminorm (Besov 半 范 数 ), 175 
Besov space (Besov 空间 ), 175 


bisa problem ( 偏 倚 问题 ), 72 

bias-variance decomposition( 偏 倚 - 方 差分 解 )， 
bias-variance tradeoff ( 偏 倚 -方差 平衡 ), 42 
bias-corrected and accelerated ( 偏 倚 矫 正 及 
加 速 的 ), 29 

BIC, 150 

Big Bang (大 爆炸 ), 37 

binning ( 装 箱 ), 198 

bins ( 箱 ), 102 

binwidth (带宽 ), 102 

bootstrap (自助 法 ), 24 

bootstrap confidence interval (自助 法 置信 区 
fal), 26 

boundary bias (边界 偏 倚 ), 60 

boxcar kernel (boxcar 核 ), 44 
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cascade equality ( 层 合 等 式 ), 183 
Cauchy-Schwartz inequality (Cauchy- 
Schwartz 不 等 式 ), 8 

central limit theorem (中 心 极限 定理 叙述 ), 4 
Chebyshev’s inequality (Chebyshev 不 等 式 )， 
7 

classification (分 类 问题 ), 195 

claw ( 爪 ), 101 

CMB, 58 

column space ( 列 空间 ), 50 

complete (完全 的 ), 117 

confidence ball (置信 球 ), 5 

confidence band (置信 带 ), 6 

confidence envelope (置信 和 包 络 ), 6 
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confidence intervals (自助 法 枢 轴 置信 区 间 )， 
27, 178 

confidence set (置信 和 集 ), 5 

continuous mapping theorem (连续 映射 定 
理 ), 3 

convergence in distribution ( 依 分 布 收敛 ), 3 
convergence in probability ( 依 概率 收敛 ), 3 
convex function ( 凸 函数 ), 8 

correlation (样本 相关 ), 14 

cosine basis (余弦 基 ), 118 

cosmic microwave background (宇宙 微 

波 背景), 38 

covariate ( 协 变 量 ), 49 

cross-validation (风险 的 交叉 验证 估计 ), 101 
cubic spline (三 次 样 条 ), 66 

curse of dimensionality ( 维 数 诅咒)，46，82， 
111, 160 
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deconvolution ( 拆 卷 积 ), 191 

delta method (delta 方法 ), 4 

density estimation ( 非 参 数 密度 估计 ), 100 
design bias (设计 偏 倚 ), 60 

detail coefficients (细节 系数 ), 165 
dictionary (字典 ), 177 

dilation equation (扩张 方程 ), 167 

Doppler function (Doppler 函数 ), 64 

double bootstrap ( 双 自 助 法 ), 29 
Dvoretzky-Kiefer-Wolfowitz (DKW) (Dvo- 
retzky-Kiefer-Wolfowitz (DKW) 不 等 式 ), 11 
density estimation (密度 估计 ), 35 
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effective degrees of freedom (有 效 自由 度 ), 51, 
54 

ellipsoid ( 椭 球 ), 119, 124 

empirical detail coe + cient (经 验 细节 系数 )， 


170 
empirical distribution function (经 验 分 布 函 
数 ), 10 

empirical influence function (经 验 影响 函数 )， 
14 

empirical probability distribution (经 验 概率 
分 布 ), 18 

empirical scaling coe + cient (经 验 刻度 系数 )， 
170 

Epanechnikov kernel (Epanechnikov 核 ), 44 
errors-in-variables (变量 中 的 误差 ), 187 
estimated risk (估计 风险 ), 101 

events (事件 ), 2 
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fast Fourier transform (快速 Fourier 变换 )， 
109 

father wavelet ( 父 小 波 ), 163 

feature (特征 ), 49 

filter (滤波 器 ), 184 

Fisher information (Fisher 信息 ), 5 

fitted value ( 拟 合 值 ), 51, 53 

Fourier basis (Fourier #), 119 

Fourier transform (Fourier 变换 ), 163 


G 
Gateaux derivative (Gatedux 导数 ), 14, 19 
Gaussian kernel (Gaussian #4), 44 
Gaussian process (Gaussian 过 程 ), 74 
generalized cross-validation (广义 交叉 验证 )， 
57 
generalized linear model (广义 线性 模型 ), 53, 
78 
Glivenko-Cantelli theorem (Glivenko-Cante- 
li 定理 ), 11 
greatest convex minorant (最 大 凸 弱 函数 )， 
197 
greedy modulator ( 贪 禁 调 节 器 ), 161 
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Hölder space (Hölder 空间 ), 175 

Haar father wavelet (Haar 父 小 波 ), 163 
Haar scaling function (Haar 刻度 函数 ), 163 
Haar wavelet (Haar 小 波 ), 164 

Hadamard differentiable (Hadamard 可 微 
的 ), 16 

hard threshold ( 硬 阐 估计 量 ), 122 

hat matrix (帽子 矩阵 )，51，54 

Heisenberg uncertainty principle (Heisenberg 
不 确定 原理 ), 183 

heteroscedastic ( 异 方差 的 ), 71 

histogram estimator (直方 图 估计 ), 102 
Hoeffding’s inequality (Hoeffiding 不 等 式 ), 7 
homoscedasticity (同方 差 性 ), 71 

Huber function (Huber 函数 ), 93 
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ICI, 178, 186 

ideal linear estimator (理想 线性 估计 ), 125 
idempotent (Eff), 51 

ill-posed (显示 病态 的 ), 194 

independent component analysis (独立 分 量 
分 析 ), 94 

influence function (影响 函数 ), 14 

inner product (内 积 ), 117 

integrated mean squared error (积分 的 均 方 
误差 ), 42, 101 

integrated risk (积分 的 风险 ), 42, 142 
integrated squared error (积分 的 平方 误差 )， 
101 

interquartile range (四 分 位 数 间距 ), 108 
intersecting confidence intervals (相交 置信 区 
间 ), 178 

inverse Fourier transform ( 逆 Fourier 变换 )， 
163 

inverse problem (i i=] i), 192 

irregular design (不 规则 设计 ), 157 


isotonic regression ( 保 序 回归 估计 ), 196 


J 


jackknife (水 手 刀 ), 22 

jackknife bias estimate (AF 7) (fa fait), 22 
James-Stein estimator (James-Stein 估计 )， 
123, 126, 152 

Jensen’s inequality (Jensen 不 等 式 ), 8 


K 


kernel (4%), 44 

kernel density estimator ( 核 密度 估计 ), 105 
kernel estimator ( 核 估 计 ), 58 

kernel regression( 核 回归 ), 50 

kill it or keep it (RKR AHI), 172 
knots ( 结 点 ), 66 

Kullback-Leibler loss (Kullback-Leibler 损 
失 ), 46 


工 
LARS, 178 
lasso, 140, 178 
leave-one-out cross-validation ( 缺 一 交叉 验 
证 ), 101 
leave-one-out cross-validation score ( 缺 一 交 
叉 验证 得 分 ), 56 


Legendre basis (Legendre 3), 148 

Lepski’s confidence set (Lepski 置信 集 ), 131 
likelihood function ( 似 然 函数 ), 4 

linear functional (线性 泛 函 ), 12 

linear minimax risk (线性 最 小 最 大 风险 ), 91 
linear shrinkage estimators (线性 收缩 估计 )， 
125 

linear smoother (线性 光滑 器 ); 50 

Lipschitz, 98 

local linear regression (局 部 线性 回归 ), 62 
local log-likelihood (局 部 对 数 似 然 ), 79 
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local polynomial regression (局 部 多 项 式 回 
JA), 50, 60 

locally adaptive (局 部 适应 的 ), 93, 162 
log-likelihood function (对 数 似 然 函 数 ), 4 
logistic regression (logistic 回归 ), 40 

logistic regression model (logistic 回归 模型 )， 
52 

loss function (损失 函数 ), 45 

local polynomial (局 部 多 项 式 对 数 似 然 ), 110 
local polynomial log-likelihood (局 部 多 项 式 
对 数 似 然 ), 110 


M 


Mallows’ Cp (Mallows 的 Cp), 150 

Mallows’ metric (Mallow 度量 ), 31 

Markov’s inequality (Markov 不 等 式 ), 7 
MARS, 88, 89 

maximum likelihood estimator (最 大 似 然 估 
计 ), 4 

mean squared error ( 均 方 误差 ), 37 
measurement error (测量 误差 ), 94, 187 
method of moments estimator (和 矩 估 计 方 法 )， 
188 

Mill’s inequality (Mill 不 等 式 ), 7 

minimax risk (最 小 最 大 风险 ), 91, 123 
minimax theory (最 小 最 大 理论 ), 116 

mirror (镜像 ), 177 

model selection (模型 选择 ), 123 

modified cross-validation (修正 的 交叉 验证 )， 
195 

modulator (调节 器 ), 152 

monotone modulator (单调 调节 器 ), 152 
mother Haar wavelet ( 母 Haar 小 波 ), 164 
mother wavelet ( 母 小 波 ), 168 

MRA, 167 

MSE, 37 

multiresolution analysis (多 分 辩 率 分 析 ), 167 
multivariate adaptive regression spline (多 元 


适应 回归 样 条 ), 89 


N 


Nadaraya- Watson kernel estimator 
(Nadaraya-Watson 核 估计 ), 58 

nested subset selection (EFH), 123 
nonparametric delta method ( 非 参 数 delta 
方法 ), 16 

nonparametric regression ( 非 参数 回归 )，49， 
58 

norm ( 范 数 ), 117 

normal means model ( 正 态 均 值 模 型 ), 116 
nested subset selection (REFS 
器 ), 152 

normal reference rule ( 正 态 参照 规则 ), 108 
normal-based interval (基于 正 态 的 区 间 ), 12 


o 


oracle (##igt), 126, 140 
orthonormal (标准 正 交 的 ), 117 
outlier resistant ( 离 群 点 不 敏感 ), 45 
oversmoothing (过 光滑 ), 37 


P 


parametric bootstrap (参数 自助 法 ), 26 
partitioned cross-validation (分 划 交 叉 验证 )， 
195 

PAV, 155, 197 

penalization method (惩罚 方法 ), 50 
penalized regression (惩罚 回归 ), 66 
penalized sums of squares (惩罚 平方 和 ), 140 
percentile interval (分 位 数 区 间 ), 28 

periodic Sobolev class (周期 Sobolev 类 ), 119 
pilot estimate (领航 员 估计 ), 90 

Pinsker constant (Pinsker 常数 ), 124 
Pinsker theorem (Pinsker's 定理 ), 124 

pivot ( 枢 轴 ), 26 
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pivotal interval ( 枢 轴 区 间 ), 28 

plug-in bandwidth (插入 带宽 ), 89, 109 
plug-in estimator (插入 估计 ), 12 
pooled-adjacent-violators (集中 邻近 违犯 者 )， 
155, 197 

predictive risk (预测 性 风险 ), 42 

principal component analysis ( 主 成 分 分 析 )， 
94 

probability measure (概率 测度 ), 2 
probability space (概率 空间 ), 3 

projection pursuit (投影 寻 踪 ), 94 

projection pursuit regression (投影 寻 踪 回归 )， 
85 

pseudo-value ( 伪 值 ), 23 

pointwise asymptotic (置信 集 ), 5 


Q 


quadratic form (二 次 型 ), 70 
quantile regression (分 位 数 回归 ), 94 
quantiles (分 位 数 ), 14 


R 


random variable (随机 变量 ), 3 

REACT, 151, 152, 155 

redshift ( 红 移 ), 35 

regression splines (回归 样 条 ), 69 

regression tree (回归 树 ), 86 

regressogram (回归 直方 图 ), 38, 54 

regular design (规则 设计 ), 151 
regularization (正则 化 ), 66 

residuals (323), 51 

response variable (响应 变量 ), 49 

reweighted least squares (重复 加 权 最 小 二 乘 )， 
52 

ridge regression ( 岭 回归 ), 68 

risk (风险 ), 41 

risk estimation and adaptation after coordi- 


nate transformation (在 坐标 变换 之 后 的 风险 


估计 和 适应 ), 151 
robust regression (稳健 回归 ), 93 
roughness penalty (粗糙 惩罚 ), 66 


S 


sample quantile (样本 p 分 位 点 ), 14 
sample space (样本 空间 ), 2 

scale-space (尺度 空间 ), 81 

scale-space smoothing (尺度 空间 光滑 ), 81 
scale-space surface (尺度 空间 曲面 ), 81 
scaling coeffcient (刻度 系数 ), 165 

score function (得 分 函数 ), 4 
semiparametric models ( 半 参 数 模型 ) 194 
shattered (粉碎 的 ), 18 

shrinkage (收缩 估计 ), 125 

sieve (Sif), 196 

signal (信号 ), 184 

simulation extrapolation (模拟 外 推 ), 188 
skewness ( 偏 度 ), 13 

Slutsky’s theorem (Slutsky 定理 ), 3 
smoother (光滑 器 ), 49 

smoothing parameter (光滑 参数 ), 37 
Sobolev space (Sobolev 空间 ), 119 
soft threshold estimator (Mitt), 122 
soft thresholding ($0), 171 
sparse (Fihi), 163 

sparsity (Mii), 140 

spatially adaptive (空间 适应 的 ), 162 
spatially inhomogeneous (空间 非 齐 次 ), 162 
splines (##4), 66 
squared error (平方 误差 ), 41 

squared prediction error (平方 预测 误差 ), 42 
statistical functional (统计 泛 函 ), 12 
statistical model (统计 模型 ), 1 

Stein lemma (Stein 引 理 ), 121 

Stein’s unbiased risk estimator (Stein 无 偏 
风险 估计 ), 121 
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Stone's theorem (Stone 定理 ), 109 
strong law of large numbers (强大 数 定理 ), 3 
studentized pivotal interval (自助 法 学 生化 枢 
轴 区 间 ), 28 

SureShrink, 173 

surgery ( 割 补 术 ), 159 

symmetric (对 称 的 ), 51 

symmlet, 169 

SIMEX, 188, 189 

smoothing (光滑 ), 54 

smoothing matrix (光滑 矩阵 ), 54 
studentized (学 生化 ), 28 

SURE, 122, 150, 154, 173 


T 


tensor product ( 张 量 积 基 ), 160 
thin-plate spline (薄片 样 条 ), 83 

trace, 83 

training error (训练 误差 ), 55 

tricube kinel (tricube 核 ), 44 

truncated power basis (被 截 的 指数 基 ), 67 
tube formula ( 管 公式 ), 75 

two-scale relationship (两 刻度 关系 ), 167 


U 


undersmoothing ( 欠 光 滑 ), 37 
uniform asymptotic (置信 集 ), 5 


upcrossing (上 穿 理论 ), 97 


v 
Vapnik-Chervonenkis theory (VC 定理 ), 18 
variable bandwidth selection (可 变 带宽 选择 )， 
93 

variable selection (变量 选择 ), 94 

VC dimension (VC 维度 ), 18 

VisuShrink, 173 


w 


wavelets (小 波 ), 162 

weak convergence (541), 3 

weak differentiability (5537 #4), 142 

weak law of large numbers ( 弱 大 数 定理 ), 3 
white noise model ( 白 噪声 模型 ), 141 
wiggly (波动 ), 1, 93 


其 他 


Cp statistic (Cp Sit tik), 57 
Ly loss (Lp 损失 ), 45 

x? confidence set, 96 

o-field (4% (c-field)), 2 

BC intervals (BC。 区 间 ), 29 
REACT, 151, 156 

SIMEX, 188 

SURE, 121 


